hadoop - 为什么映射输出记录和减少hadoop计数器中的输入记录是不同的？

为什么映射输出记录和减少hadoop计数器中的输入记录是不同的？

时间：2016-06-20 20:53:54

标签： hadoop mapreduce counter

我在hadoop中运行了一个字数统计工作我的问题是为什么映射输出记录和减少hadoop计数器中的输入记录是不同的？请参阅以下图片

2 个答案:

答案 0 :(得分：3)

根据＆＃34;合并输出记录＆＃34;反击，似乎你的工作使用了一个合并器。这解释了为什么＆＃34;减少输入记录＆＃34;不等于＆＃34;映射记录＆＃34;。

通过将100M记录缩减到几百个，组合器相当有效。

最有可能的是，您会问为什么＆＃34;结合输入记录＆＃34;不等于＆＃34;映射输出记录＆＃34;为什么＆＃34;结合输出记录＆＃34;不等于＆＃34;记录输入记录＆＃34;。解释是组合器可以多次运行，这意味着你实际上是＆＃34;虚拟的＆＃34;多次计算相同的数据（这里你可以观察到541额外输入记录等于677 - 136，但不保证这两个数字总是匹配）

答案 1 :(得分：0)

我找到了这个理由我在代码中使用了一个组合器类