HADOOP组合器操作功能

时间:2013-10-24 12:54:17

标签: hadoop mapreduce combiners

我对Hadoop Map / Reduce Framework中的组合器功能存在疑问。组合器操作仅应用于由映射任务输出的键值对或在给定节点上发生的所有映射任务上。 事实上,我做了一些测试,似乎是第一个。根据你的说法,如果我是对的,为什么选择这种行为,因为知道将所有地图任务输出组合在一起可以非常有利于减少带宽使用。

提前致谢

1 个答案:

答案 0 :(得分:0)

  • 如何知道所有地图任务何时完成? TaskTracker不知道JobTracker将如何分配地图任务。在运行组合器之前,您可能必须等待所有映射任务完成。
  • 您仍然希望保持映射器和减速器之间的数据流动。随着组合器的运行和输出的创建,这些数据立即开始变为减速器(禁止将slowstart配置设置为高位)。这很好,因为它会随着时间推移扩展网络利用率。