我使用的是hadoop版本0.20.0。
我已成功设置了组合器类。我的程序运行成功。
然而,我发现大约5%的数据在从映射器中出来后没有进入组合器,这些数据直接进入reducer。我不知道为什么?
答案 0 :(得分:1)
关于Hadoop中合并器实现的说明:默认情况下,执行框架保留权利 自行决定使用合成器。 实际上,这意味着组合器可以被调用零,一或多个 此外,Hadoop中的组合器实际上可以在reduce阶段调用,即在键值对之后调用 已经复制到reducer,但在用户reducer代码运行之前。因此,合并者必须是 仔细编写,以便它们可以在这些不同的环境中执行。
您可以在以下PDF的第2.4节中找到这个