这是我在spark UI上的spark job executor选项卡,不知道为什么只有一个执行程序上有这么多任务,请有人解释。
另外,在下面的图片中为什么17 / 17,20 / 20等创建的任务数量存在很多差异,如果我知道创建了多少相同数量的任务,我可以使用适当数量的核心 请建议
答案 0 :(得分:0)
我猜是因为Spark意识到你的1个节点最接近其他节点,所以最近的执行器将完成所有的工作。
所以你要尝试的是尝试将spark.locality.wait
增加到10或15,因为默认值为3秒。
但需要通过看到类似的东西来确认吗?
但这不是最好的方法。您需要将数据源移动到与执行者更近的距离,因为网络传输的成本很高。
价:http://spark.apache.org/docs/latest/configuration.html#scheduling