消除hadoop中映射器的重复键/值对

时间:2012-07-20 09:20:30

标签: hadoop mapreduce hdfs

如果我从2个不同的数据节点上运行的2个不同的映射器获得相同的键/值对,并且如果我使用单个减速器,如何消除重复的键/值对并防止它进入减速器?< / p>

我是否应该使用组合器,然后检查同一个键是否有重复值,然后在组合器中将其消除?但是组合器将来自单个映射器的所有键值对作为输入,对吧?

1 个答案:

答案 0 :(得分:2)

正是减速机的责任 - 处理这种重复。我认为hadoop无法完全允许它出于这个原因。
正如你以正确的方式指出的那样 - 组合器在这里不会完全有用,但只减少了这种重复的次数