标签: java apache-spark
repartitionAndSortWithinPartitions方法很好用。
repartitionAndSortWithinPartitions
但是我真的不想重新分区。我对数据自然分区的方式感到满意。
我确实想对每个分区的内容进行排序。
我对整体排序不感兴趣。
本质上,我想避免数据重新排列。我只需要对每个分区的内容进行排序。
答案 0 :(得分:0)
这将对分区内的数据进行排序。
df.sortWithinPartitions('<sort_column>').show()