数据集成问题 - 如何集成类似实体

时间:2010-12-25 19:44:54

标签: java python stemming edit-distance data-integration

我有一个数据库,在同一个表中有非常相似的行。这些行类似,因为它们具有几乎相等的列值。我需要将这些相应的行集成到一行中。

例如,应该集成这两个用户(u1和u2):

 u1 = User(name = "William Henry Gates III",
           age = 55,
           nationality = "american",
           alma_mater = "Harvard Univesity")

 u2 = User(name: "William Henry 'Bill' Gates III",
           age: 55,
           nationality: "America",
           alma_mater: "Harvard U.")

我正在考虑使用一些edit distancestemming技术。其他算法和技术建议?任何有用的库(最好是Python或Java)?

1 个答案:

答案 0 :(得分:3)

考虑像Refine