当组合器完全运行时,虽然你在驱动程序代码中提到了组合器类,但它仍然可以决定是否应该在每个映射器输出上运行。你能解释一下,在什么基础上(有任何重击规则或方程或公式)hadoop决定这个组合器的工作执行。
答案 0 :(得分:0)
组合器在映射器之后和减速器之前运行。它运行每个映射器输出。它可以看作是映射器的一部分,因此reducer的输入实际上是组合器的输出。每个映射器可能包含许多映射任务,因此可能会让您感到困惑。它充当“迷你缩减器”,意味着它将具有相同键的所有值(映射器的输出)组合在一起,但仅限于从映射器输出的数据,而不是所有数据,不像减速机。
有关详细信息,请参阅此Yahoo Tutorial。