如何使用MapReduce对重复项进行分组?

时间:2016-04-19 09:43:24

标签: mapreduce duplicates

我想使用MapReduce返回重复元组的列表。通过重复元组,我的意思是元组具有一组属性的相似值。

我可以将这组属性的值作为中间键,并调整reduce以将所有类似的键处理为一个键吗?

1 个答案:

答案 0 :(得分:0)

是的,我可以实现我自己的中间键类实现 接口WritableComparable 。所以我被迫实现了 CompareTo 这个函数,如果输入是等于的话,它会返回 0

在我的例子中,属性'class是我的元组的属性。所以,我刚刚编写了函数“CompareTo”,当所有这些属性相似时,它返回 0 。这里的相似性可以通过Levenshtein编辑距离来计算。