Scala - 对RDD分区进行排序

时间:2015-06-09 06:47:23

标签: scala sorting apache-spark rdd

假设我有1到1,000,000,000的整数RDD,我想打印使用foreachPartition订购的。可能存在5-6-7-8的分区将在1-2-3-4之前打印的情况。我该如何防止这种情况?

谢谢, 玛雅

1 个答案:

答案 0 :(得分:2)

我认为唯一的方法是确保只有一个分区,然后就可以打印数据了。您可以在RDD上调用repartition(1)或coalesce(1)来减少分区数。对于你的用例,我认为合并更好,因为它避免了洗牌。

https://spark.apache.org/docs/1.3.1/programming-guide.html#transformations