如何使用pyspark SQL重新分区

时间:2019-06-25 12:05:59

标签: python pyspark partition

我有10000行数据。我想将其均分,而不是按任何列。应该是2000,2000,2000,2000,2000。我们应该分别写成2000。

尝试合并 而且我也尝试过分区。但分布不均。

final.coalesce(4).write.mode('overwrite').option("header", "true")

1 个答案:

答案 0 :(得分:1)

您将不得不使用repartition而不是合并。合并速度更快,因为它不会洗牌,但是您会注意到,这会导致分区分布不均。

final = final.repartition(5)

应该为您提供的号码完成工作。