为什么Hadoop Mapper会对数据进行排序?

时间:2014-12-19 03:36:58

标签: hadoop mapreduce

我意识到创建要发送到reducer的键排序列表是映射器的主要目标。然后,如果列表非常大,则需要在mapper中进行分区,以便它可以由reducer处理(我的意思是一个唯一键,值列表很大,然后需要进行分区),但为什么hadoop需要排序映射器中的键。有人问过我这个问题,我无法完全说服他。我只是一个初学者,有点好奇。任何帮助表示赞赏。

1 个答案:

答案 0 :(得分:0)

在映射器阶段之后和执行reducer作业之前进行排序,您不需要显式执行。

请参阅similar question