我想使用MapReduce返回重复元组的列表。通过重复元组,我的意思是元组具有一组属性的相似值。
我可以将这组属性的值作为中间键,并调整reduce以将所有类似的键处理为一个键吗?
答案 0 :(得分:0)
是的,我可以实现我自己的中间键类实现 接口WritableComparable 。所以我被迫实现了 CompareTo 这个函数,如果输入是等于的话,它会返回 0 。
在我的例子中,属性'class是我的元组的属性。所以,我刚刚编写了函数“CompareTo”,当所有这些属性相似时,它返回 0 。这里的相似性可以通过Levenshtein编辑距离来计算。