为什么火花流媒体执行器会在不同时间启动?

时间:2016-07-14 16:00:58

标签: apache-spark spark-streaming timeline

我正在使用使用kafka作为源的Spark streaming 1.6

我的输入参数如下:

num-executors    5
num-cores        4
batch Interval  10 sec
maxRate         600
blockInterval   350 ms

为什么我的一些执行者比另一个更晚开始?

enter image description here

1 个答案:

答案 0 :(得分:2)

这不是执行者的开始时间,而是任务的开始时间。

这很可能是由于地点安排造成的。 Spark延迟了任务的开始,以找到运行该任务的最佳执行程序。检查Spark's documentation中的配置“spark.locality.wait”以获取更多详细信息。