比较两个数据结构的相似性

时间:2013-11-29 11:38:25

标签: algorithm comparison computer-science equality fuzzy

我正在尝试找到一种用于检查两个数据条目之间相似性的算法。假设我有两个数据结构(联系人列表中的字段),其中包含以下数据:

// UserA addressbook.
name: Frank Sinatra
mobile: +44 555 555 555 55

// UserB addressbook.
name: Frank Albert Sinatra
phone: 004455555555555

我从不同的提供商处获得了这些条目,UserA同步了他的Google帐户,同时UserB同步了他的Microsoft帐户,但我希望我的算法告诉我两个用户都知道同一个人(在一定的概率内) )。

有谁知道我应该在哪里研究?我试图找到创建“不安全”哈希的哈希算法,即类似数据的类似哈希值,但该路由效率不高。

2 个答案:

答案 0 :(得分:1)

可以使用Levenshtein distance确定字符串的相似性。应在测试之前准备字符串,例如删除特殊字符或拆分字符串。 对于数据结构,请查看How do you measure similarity between 2 series of data?

答案 1 :(得分:0)

您可以进一步研究的一些关键词:数据相似性,距离/相似性度量(指标),相关性,不精确匹配。