地图输出记录的数量少于在hadoop中组合输入记录

时间:2012-02-22 13:00:39

标签: hadoop mapreduce

当我运行mapreduce时,我得到的组合输入记录大于地图输出记录?这真的很奇怪。我无法弄清楚到底发生了什么?据我所知,地图输出记录应该是exaclty相同的广告组合输入记录。谁能帮我解决问题。提前谢谢。

这是一个真实世界的工作示例:

    Map-Reduce Framework
      Map input records=112705844
      Map output records=64841776
      Combine input records=64842079
      Combine output records=409
      Reduce input records=106
      Reduce output records=4

1 个答案:

答案 0 :(得分:1)

显然,应用组合器的行为从Hadoop 0.18起改变了。在为每个地图任务调用一次合并器之前。现在它可以在地图和缩小侧调用0次或更多次。这表明组合器输入/输出记录的计数不必与map / reduce输入/输出计数完全匹配。