Question

我正在使用使用kafka作为源的Spark streaming 1.6

我的输入参数如下：

num-executors    5
num-cores        4
batch Interval  10 sec
maxRate         600
blockInterval   350 ms

为什么我的一些执行者比另一个更晚开始？

Answer 1

这不是执行者的开始时间，而是任务的开始时间。

这很可能是由于地点安排造成的。 Spark延迟了任务的开始，以找到运行该任务的最佳执行程序。检查Spark's documentation中的配置“spark.locality.wait”以获取更多详细信息。