每当我在程序中使用 sortByKey 时,它就会挂起!它们是一种在Spark中对RDD进行排序的更有效方法吗?那么 RangePartitioner 呢?他们是使用 RangePartitioner 排序的方法吗?我的RDD是[(Integer, SomeType)]
类型。排序后,我使用 RangePartitioner 对数据进行分区,然后使用 mapPartitions 进一步处理。在那种情况下,对RDD进行排序的最优雅方式是什么?基本上我希望在我开始使用 mapPartitions 之前对RDD进行排序。
答案 0 :(得分:1)
Spark不用于排序。 如果它挂起,则表示您正在尝试对非常大的数据集进行排序。
问问自己,你将如何处理数百万个排序结果集? 请改用takeOrdered。