如何在Spark中对分区的内容进行排序?

时间:2019-07-25 16:26:36

标签: java apache-spark

repartitionAndSortWithinPartitions方法很好用。

但是我真的不想重新分区。我对数据自然分区的方式感到满意。

我确实想对每个分区的内容进行排序。

我对整体排序不感兴趣。

本质上,我想避免数据重新排列。我只需要对每个分区的内容进行排序。

1 个答案:

答案 0 :(得分:0)

这将对分区内的数据进行排序。

df.sortWithinPartitions('<sort_column>').show()