我正在使用使用kafka作为源的Spark streaming 1.6
我的输入参数如下:
num-executors 5
num-cores 4
batch Interval 10 sec
maxRate 600
blockInterval 350 ms
为什么我的一些执行者比另一个更晚开始?
答案 0 :(得分:2)
这不是执行者的开始时间,而是任务的开始时间。
这很可能是由于地点安排造成的。 Spark延迟了任务的开始,以找到运行该任务的最佳执行程序。检查Spark's documentation中的配置“spark.locality.wait”以获取更多详细信息。