你的位置:首页 > 软件开发 > 数据库 > Spark RDD aggregateByKey

Spark RDD aggregateByKey

发布时间:2016-10-28 02:00:05
aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考 直接上代码import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkContext, SparkConf}/** * Created b ...

aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考

 

直接上代码

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkContext, SparkConf}/** * Created by Edward on 2016/10/27. */object AggregateByKey { def main(args: Array[String]) {  val sparkConf: SparkConf = new SparkConf().setAppName("AggregateByKey")   .setMaster("local")  val sc: SparkContext = new SparkContext(sparkConf)  val data = List((1, 3), (1, 2), (1, 4), (2, 3))  var rdd = sc.parallelize(data,2)//数据拆分成两个分区  //合并在不同partition中的值,a,b的数据类型为zeroValue的数据类型  def comb(a: String, b: String): String = {   println("comb: " + a + "\t " + b)   a + b  }  //合并在同一个partition中的值, a的数据类型为zeroValue的数据类型,b的数据类型为原value的数据类型  def seq(a: String, b: Int): String = {   println("seq: " + a + "\t " + b)   a + b  }  rdd.foreach(println)  

原标题:Spark RDD aggregateByKey

关键词:

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。

可能感兴趣文章

我的浏览记录