何时为每个映射器输出运行精确的组合器

时间:2014-01-29 16:58:29

标签: hadoop mapreduce

当组合器完全运行时,虽然你在驱动程序代码中提到了组合器类,但它仍然可以决定是否应该在每个映射器输出上运行。你能解释一下,在什么基础上(有任何重击规则或方程或公式)hadoop决定这个组合器的工作执行。

1 个答案:

答案 0 :(得分:0)

组合器在映射器之后和减速器之前运行。它运行每个映射器输出。它可以看作是映射器的一部分,因此reducer的输入实际上是组合器的输出。每个映射器可能包含许多映射任务,因此可能会让您感到困惑。它充当“迷你缩减器”,意味着它将具有相同键的所有值(映射器的输出)组合在一起,但仅限于从映射器输出的数据,而不是所有数据,不像减速机。

有关详细信息,请参阅此Yahoo Tutorial