为什么映射输出记录和减少hadoop计数器中的输入记录是不同的?

时间:2016-06-20 20:53:54

标签: hadoop mapreduce counter

我在hadoop中运行了一个字数统计工作 我的问题是 为什么映射输出记录和减少hadoop计数器中的输入记录是不同的? 请参阅以下图片enter image description here

2 个答案:

答案 0 :(得分:3)

根据"合并输出记录"反击,似乎你的工作使用了一个合并器。这解释了为什么"减少输入记录"不等于"映射记录"。

通过将100M记录缩减到几百个,组合器相当有效。

最有可能的是,您会问为什么"结合输入记录"不等于"映射输出记录"为什么"结合输出记录"不等于"记录输入记录"。解释是组合器可以多次运行,这意味着你实际上是"虚拟的"多次计算相同的数据(这里你可以观察到541额外输入记录等于677 - 136,但不保证这两个数字总是匹配)

答案 1 :(得分:0)

我找到了这个理由 我在代码中使用了一个组合器类