aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考 直接上代码import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkContext, SparkConf}/** * Created b ...
aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考
直接上代码
import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkContext, SparkConf}/** * Created by Edward on 2016/10/27. */object AggregateByKey { def main(args: Array[String]) { val sparkConf: SparkConf = new SparkConf().setAppName("AggregateByKey") .setMaster("local") val sc: SparkContext = new SparkContext(sparkConf) val data = List((1, 3), (1, 2), (1, 4), (2, 3)) var rdd = sc.parallelize(data,2)//数据拆分成两个分区 //合并在不同partition中的值,a,b的数据类型为zeroValue的数据类型 def comb(a: String, b: String): String = { println("comb: " + a + "\t " + b) a + b } //合并在同一个partition中的值, a的数据类型为zeroValue的数据类型,b的数据类型为原value的数据类型 def seq(a: String, b: Int): String = { println("seq: " + a + "\t " + b) a + b } rdd.foreach(println)
原标题:Spark RDD aggregateByKey
关键词:
*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们:
admin#shaoqun.com
(#换成@)。