Hadoop与String键连接

时间:2014-02-27 21:07:17

标签: join hadoop mapreduce

我正在实现一个reduce-side join来查找数据库A和B之间的匹配。数据集中的两个文件每行都包含一个json对象。连接键是每个记录的name属性,因此,映射器提取json的名称并将其作为键传递,将json本身作为值传递。 reducer必须将jsons对象合并为相同或相似的人名。

问题在于我需要使用字符串相似性匹配算法对密钥进行分组,例如,John White必须被认为与John White Lennon相等。

我尝试使用分组比较器来做到这一点,但它没有按预期工作。

如何实施?

提前致谢!

1 个答案:

答案 0 :(得分:1)

您在此处请求的内容可以描述为集合相似性联接,其中集合是例如令牌集,或每行的n-gram。这是一个research paper,它描述了如何在MapReduce中实现这一目标。我希望你觉得它很有用。