应用错误收集

在Hadoop中，reducer在shuffle阶段复制其输入

时间：2016-02-09 07:51:25

标签： hadoop mapreduce

在Hadoop中，映射器的输出在shuffle阶段被复制到reducer。 reducer必须从不同的映射器复制其相应的分区。在开始实际的减少过程之前，reducer在哪里存储其输入？

1 个答案:

答案 0 :(得分：0)

如果是，则将地图输出复制到reduce任务JVM的内存中足够小（缓冲区的大小由 mapred.job.shuffle.input.buffer.percent，它指定了用于此目的的堆的比例）;否则，他们是复制到磁盘。当内存缓冲区达到阈值大小时（由mapred.job.shuffle.merge.percent控制）或达到阈值数量的地图输出（mapred.inmem.merge.threshold），它是合并并溢出到磁盘。如果指定了组合器，则将运行它在合并期间减少写入磁盘的数据量。

Ref- Hadoop权威指南