应用错误收集

执行程序选项卡/作业任务问题

时间：2016-06-16 20:41:22

标签： apache-spark spark-streaming

这是我在spark UI上的spark job executor选项卡，不知道为什么只有一个执行程序上有这么多任务，请有人解释。

另外，在下面的图片中为什么17 / 17,20 / 20等创建的任务数量存在很多差异，如果我知道创建了多少相同数量的任务，我可以使用适当数量的核心请建议

1 个答案:

答案 0 :(得分：0)

我猜是因为Spark意识到你的1个节点最接近其他节点，所以最近的执行器将完成所有的工作。

所以你要尝试的是尝试将spark.locality.wait增加到10或15，因为默认值为3秒。但需要通过看到类似的东西来确认吗？

但这不是最好的方法。您需要将数据源移动到与执行者更近的距离，因为网络传输的成本很高。

价：http://spark.apache.org/docs/latest/configuration.html#scheduling