当我运行mapreduce时,我得到的组合输入记录大于地图输出记录?这真的很奇怪。我无法弄清楚到底发生了什么?据我所知,地图输出记录应该是exaclty相同的广告组合输入记录。谁能帮我解决问题。提前谢谢。
这是一个真实世界的工作示例:
Map-Reduce Framework
Map input records=112705844
Map output records=64841776
Combine input records=64842079
Combine output records=409
Reduce input records=106
Reduce output records=4
答案 0 :(得分:1)
显然,应用组合器的行为从Hadoop 0.18起改变了。在为每个地图任务调用一次合并器之前。现在它可以在地图和缩小侧调用0次或更多次。这表明组合器输入/输出记录的计数不必与map / reduce输入/输出计数完全匹配。