从“减少输入记录”到“减少输入组”

时间:2011-06-12 09:33:03

标签: hadoop mapreduce

运行MapRed作业后,我们将获得有关作业的摘要,例如:

...
reduce input records: 10
reduce input groups: 3
...

我知道这是由重复组合键引起的。我的问题是reducer用来组合记录的方法是什么? key1.equals(key2)或key1.hashCode == key2.hashCode?

感谢。

2 个答案:

答案 0 :(得分:2)

仅比较,因为密钥必须实现WritableComparablekey.hashCode()用于分区原因。不会使用等于。

答案 1 :(得分:1)

通常,减速器不会合并记录。对于从映射器发出的每个键执行一个reducer(不一定是并行)。

减少输入组是输入的唯一键的数量 减速。减少输入记录是值的数量。每把钥匙都有 与其关联的一个或多个值进入reducer。