我在使用AWS EMR上的spark 2.1.0 / 2.0.2从Kafka流式传输时遇到了奇怪的行为。
“spark.streaming.concurrentJobs”明确地设置为1流式传输作业,但运行一段时间后,作业选项卡显示超过1个活动作业正在运行,并且此类“活动”作业不断增加。
在这些工作中,有些阶段仍未执行(状态为 - )。但是,在这些工作下,所有任务都显示为“成功”。
这里有什么问题?更奇怪的是,除非我打开Spark UI页面以频繁检查当前状态,否则这种行为似乎不会发生。
“职位”标签 - http://ibb.co/j6XkXk 阶段 - http://ibb.co/budg55
一开始只有Job 12109。当我切换标签几次时,事情就堆积了。
此致 亚历