应用错误收集

时间：2013-12-13 15:58:57

标签： hadoop mapreduce

我理解为什么中间键值按键分组，但为什么要对它们进行排序？

答案 0 :(得分：1)

这就是它实现分组的方式。按键排序时，它们会组合在一起。它的排序真的无关紧要......唯一重要的是相同的键是紧挨着的。

排序可能不是最好的方法。也许某种散列会更快：O（N）而不是O（NlogN）。它被实现为排序只是因为有些应用程序需要排序键（例如HBase / BigTable）。

答案 1 :(得分：1)

我们保证在给定分区内，按增加的键顺序处理中间键/值对。这种排序保证可以很容易地为每个分区生成一个排序的输出文件，这在输出文件格式需要通过键支持有效的随机访问查找时很有用，或者输出的用户发现将数据排序很方便。

Hadoop已根据Google的论文实施。并非所有算法都需要对数据进行排序。在Hadoop中可以插入排序，可以使用替换。更多信息here。