Spark中的分区越多越好吗?

时间:2016-06-16 16:59:28

标签: apache-spark

我是Spark的新手并且有一个问题

Spark中的分区越多越好吗?如果我有OOM问题,更多分区会有帮助吗?

1 个答案:

答案 0 :(得分:0)

分区决定了并行度。 Apache Spark doc说,分区大小应该至少等于集群中的核心数。

如果分区很少,则不会使用群集中的所有核心。 如果分区太多而数据很小,则会安排太多小任务。

如果您遇到内存不足问题,则必须增加执行程序内存。它应该至少为8GB。