sortBy在Spark中使用哪种算法?

时间:2016-12-26 11:57:54

标签: java scala apache-spark pyspark

想知道如何在spark中实现排序。我在哪里可以找到用于编写rdd操作的算法。 感谢

1 个答案:

答案 0 :(得分:2)

Spark使用bucket sort的分布式变体:

  • 使用RangePartitioner将数据分区为特定数量的存储区。
  • 每个桶都在一个洗牌中单独排序。