Spark流式传输NetworkWordCount示例每批创建多个作业

时间:2017-09-05 11:52:47

标签: apache-spark spark-streaming

我通过spark-shell在yarn集群上运行基本的NetworkWordCount程序。这是我的代码片段 -

import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.storage.StorageLevel

val ssc = new StreamingContext(sc, Seconds(60))
val lines = ssc.socketTextStream("172.26.32.34", 9999, StorageLevel.MEMORY_ONLY)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()

Streaming选项卡上的控制台和统计信息的输出也是预期的。 但是,当我查看作业选项卡时,每1分钟批处理间隔会触发两个作业,不应该是每个间隔一个作业吗?屏幕截图如下 -

现在,当我查看Streaming UI上已完成的批次时,我看到每分钟只有一批。下面的屏幕截图 -

我错过了什么吗?另外,我注意到启动作业还有两个具有相同名称的状态,产生了不同数量的任务,如下图所示,这里究竟发生了什么?

enter image description here enter image description here enter image description here

0 个答案:

没有答案