我有10000行数据。我想将其均分,而不是按任何列。应该是2000,2000,2000,2000,2000。我们应该分别写成2000。
尝试合并 而且我也尝试过分区。但分布不均。
final.coalesce(4).write.mode('overwrite').option("header", "true")
答案 0 :(得分:1)
您将不得不使用repartition而不是合并。合并速度更快,因为它不会洗牌,但是您会注意到,这会导致分区分布不均。
final = final.repartition(5)
应该为您提供的号码完成工作。