Apache Spark Scala:groupbykey维护输入RDD中的值顺序

时间:2016-09-02 06:43:41

标签: scala apache-spark rdd

可能是我要求非常基本的问题道歉,但我没有在互联网上找到答案。 groupBykey是否维护值的顺序。首先在输入RDD中出现的值应首先出现在输出RDD中。我试过这个,它正在维护这个顺序,但我想从专家那里确认一下。我需要类似下面的内容

Input RDD [Int, Int]
 1 20
 2 10
 1 8
 1 25

Output RDD
 1 20 8 25
 2 10

1 个答案:

答案 0 :(得分:1)

没有

  

将RDD中每个键的值分组为单个序列。使用现有分区程序/并行级别对生成的RDD进行散列分区。不保证每个组中元素的排序,并且每次评估结果RDD时甚至可能不同。

https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions@groupByKey():org.apache.spark.rdd.RDD[(K,Iterable[V])]