使用mapreduce进行全局排序

时间:2012-11-29 20:44:55

标签: mapreduce

我有10个带数字(整数)的HDFS文件。 当我使用mapreduce对它们进行排序时,每个reducer的输出都很好地排序。但是,如果我希望所有数字全局排序怎么办?类似于:第一个输出文件的编号最大,最后一个输出文件的编号最小......

我想到的选项是:

  • 使用单个减速器,这可能会破坏mapreduce的目的
  • 在本地下载并合并排序......

有更好的解决方案吗? 谢谢

1 个答案:

答案 0 :(得分:0)

看一下terrasort示例。 在那里,他们首先做一个数据样本,以创建一个分区方案,确保最终结果的全局排序。