标签: mapreduce
我有10个带数字(整数)的HDFS文件。 当我使用mapreduce对它们进行排序时,每个reducer的输出都很好地排序。但是,如果我希望所有数字全局排序怎么办?类似于:第一个输出文件的编号最大,最后一个输出文件的编号最小......
我想到的选项是:
有更好的解决方案吗? 谢谢
答案 0 :(得分:0)
看一下terrasort示例。 在那里,他们首先做一个数据样本,以创建一个分区方案,确保最终结果的全局排序。