Question

我有10000行数据。我想将其均分，而不是按任何列。应该是2000,2000,2000,2000,2000。我们应该分别写成2000。

尝试合并而且我也尝试过分区。但分布不均。

final.coalesce(4).write.mode('overwrite').option("header", "true")

Answer 1

您将不得不使用repartition而不是合并。合并速度更快，因为它不会洗牌，但是您会注意到，这会导致分区分布不均。

final = final.repartition(5)

应该为您提供的号码完成工作。