标签: apache-spark
我是Spark的新手并且有一个问题
Spark中的分区越多越好吗?如果我有OOM问题,更多分区会有帮助吗?
答案 0 :(得分:0)
分区决定了并行度。 Apache Spark doc说,分区大小应该至少等于集群中的核心数。
如果分区很少,则不会使用群集中的所有核心。 如果分区太多而数据很小,则会安排太多小任务。
如果您遇到内存不足问题,则必须增加执行程序内存。它应该至少为8GB。