Spark如何决定为任何RDD做多少次重新分区

时间:2017-03-11 23:56:54

标签: apache-spark rdd partition

Spark如何确定要为任何RDD执行多少次重新分区。 RDD repartition()取数字如何得出数字?

1 个答案:

答案 0 :(得分:1)

决定分区时的经验法则。

  1. 分区大小应小于2GB(此限制来自火花代码)。

  2. 在Spark中尝试保持分区大小= Map Split size = HDFS默认块大小。请记住,不像火花num reducer任务中的MR> = num mappers

  3. 如果分区数大约是2000,那么增加numPartitions>因为spark对分区应用了不同的逻辑。 2000和> 2000