如何在Spark的排序中确定一个键去哪个分区

时间:2017-05-30 02:08:52

标签: apache-spark shuffle

在排序%溢出过程中,哪个键是分区的开头而是另一个?

1 个答案:

答案 0 :(得分:0)

无论是Spark Core(带RDD)还是Spark SQL(带数据集),默认分区都是HashPartitioner,其中键的哈希给出了分区:

  

使用Java的Object.hashCode实现基于散列的分区的org.apache.spark.Partitioner。