Spark --num-executors和分区数量

时间:2016-02-18 16:14:41

标签: apache-spark

执行程序的数量是否必须是分区计数的一个因素。因为我有两个执行器和25个分区时数据丢失。

1 个答案:

答案 0 :(得分:3)

完全没有!分区数完全独立于执行程序的数量(但为了提高性能,您至少应将分区数设置为每个执行程序的核心数乘以执行程序数,以便您可以使用完全并行性!)。

也许您可以发布您的代码,以便我们可以告诉您数据丢失的原因......