增加spark提交作业的分区数

时间:2016-11-28 07:41:34

标签: apache-spark

我们正在运行spark-submit命令来处理12个内核上的100GB数据。该命令创建了18个任务,因此需要花费大量时间。我们希望增加分区数量以增加任务数量以减少时间。我们怎么能这样做?

1 个答案:

答案 0 :(得分:1)

分区数通常来自您的数据源,并在您进行第一次随机播放时更改为200.

您可以随时在代码中重新分区。 rdd和dataframe都有重新分区方法(rdd也有repartitionAndSortWithinPartitions,而dataframe的重新分区可以提供你应该使用的分区列,以确保你根据相关列进行重新分区。)