你的位置:首页 > 数据库

[数据库]Spark Streaming


Spark Streaming 

Spark Streaming 是Spark为了用户实现流式计算的模型。

数据源包括Kafka,Flume,HDFS等。

DStream 离散化流(discretized stream), Spark Streaming 使用DStream作为抽象表示。是随时间推移而收到的数据的序列。DStream内部的数据都是RDD形式存储, DStream是由这些RDD所组成的离散序列。

 

编写Streaming步骤:

1.创建StreamingContext

// Create a local StreamingContext with two working thread and batch interval of 5 second.
// The master requires 2 cores to prevent from a starvation scenario.
val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
val ssc = new StreamingContext(conf, Seconds(5))

创建本地化StreamingContext, 需要至少2个工作线程。一个是receiver,一个是计算节点。

2.定义输入源,创建输入DStream

// Create a DStream that will connect to hostname:port, like localhost:9999
val lines = ssc.socketTextStream("node1", 9999)

3.定义流的计算过程,使用transformation和output operation DStream

// Split each line into wordsval words = lines.flatMap(_.split(" "))// Count each word in each batchval pairs = words.map(word => (word, 1))val wordCounts = pairs.reduceByKey(_ + _)// Print the first ten elements of each RDD generated in this DStream to the consolewordCounts.print()

4.开始接收数据及处理数据,使用streamingContext.start()

ssc.start()       // Start the computation

5.等待批处理被终止,使用streamingContext.awaitTermination()

ssc.awaitTermination() // Wait for the computation to terminate

6.可以手工停止批处理,使用streamingContext.stop()

 

数据源

数据源分为两种

1.基本源

text,HDFS等

2.高级源

Flume,Kafka等

 

DStream支持两种操作

一、转化操作(transformation)

无状态转化(stateless):每个批次的处理不依赖于之前批次的数据

 

有状态转化(stateful):跨时间区间跟踪数据的操作;一些先前批次的数据被用来在新的批次中参与运算。

  • 滑动窗口:
  • 追踪状态变化:updateStateByKey()

 

 

窗口函数

 

 

二、输出操作(output operation)

 

 




普吉岛六日游行程安排参考去普吉岛旅游跟团行程普吉岛旅游护照签证普吉岛旅游路线报价费用普吉岛旅游哪里好玩呢2015圣诞节是几月几日?美国圣诞节放几天假? 2015年博鳌亚洲论坛门票价格?博鳌论坛永久会址景区怎么样? 组图:观阳产土楼 赏坡山云海 广州美食节时间?沙湾古镇有什么好吃的? DFS集团T广场于铜锣湾希慎广场盛大开幕 宝墨园和南粤苑一天时间能逛完吗?宝墨园南粤苑套票可以预订吗? 宝墨园景区的特色与创新?南粤苑是宝墨园的一部分吗? 宝墨园南粤苑好玩吗?番禺宝墨园南粤苑有什么看点? 皇后湾门票_皇后湾门票价格_皇后湾门票多少钱 国内赏雪十佳地 槟榔谷在哪_槟榔谷在哪里_槟榔谷怎么走 鹿回头公园门票_鹿回头山顶公园门票_三亚鹿回头公园门票 承德避暑山庄在哪里_避暑山庄位于哪个省 798艺术区地址_北京798艺术区在哪里 野三坡在哪_野三坡在哪里_野三坡在哪个省 世界公园门票价格_世界公园门票_世界公园门票要多少钱_北京世界公园门票 HL-30805Q7RT Datasheet HL-30805Q7RT Datasheet HL-30805QAT Datasheet HL-30805QAT Datasheet HL-30805QBC Datasheet HL-30805QBC Datasheet 1月去那里旅游好 1月去那里旅游好 1月去那里旅游好 适合情侣旅游的地方 适合情侣旅游的地方 适合情侣旅游的地方 暑假旅游好去处 暑假旅游好去处 暑假旅游好去处