标签: hadoop mapreduce
我有一个带有以下计数器的MapReduce作业
Map output records: 1,256,043,797 Reduce input records: 1,027,012,342
我没有使用合成器,所以我很惊讶减少的记录少于地图产生的记录。可能导致这种情况的原因是什么?
答案 0 :(得分:0)
事实证明这是因为我的reduce没有迭代某些键的所有值。计数器显示消耗的减少记录的数量,因此如果减速器一直通过每个键的迭代器,它只会等于映射输出记录。