Spark如何确定要为任何RDD执行多少次重新分区。 RDD repartition()取数字如何得出数字?
答案 0 :(得分:1)
决定分区时的经验法则。
分区大小应小于2GB(此限制来自火花代码)。
在Spark中尝试保持分区大小= Map Split size = HDFS默认块大小。请记住,不像火花num reducer任务中的MR> = num mappers
如果分区数大约是2000,那么增加numPartitions>因为spark对分区应用了不同的逻辑。 2000和> 2000