使用字符串相似性技术记录链接

时间:2017-01-25 19:21:45

标签: string record similarity levenshtein-distance linkage

我们正在开发Record连接项目。 我们观察到所有标准技术的奇怪行为,如Jaro Winkler,Levenshtein,N-Gram,Damerau-Levenshtein,Jaccard指数,Sorensen-Dice

说, 字符串1 = MINI GRINDER KIT
String 2 = Weiler 13001迷你磨床附件套件,适用于小型直角磨床
String 3 =密尔沃基视频内窥镜,旋转检测范围,系列:M-SPECTOR 360,2.7英寸640 x 480像素高分辨率LCD,塑料,黑色/红色

在上述情况下,字符串1和字符串2与所有方法的分数相关,如下所示 Jaro Winkler - > 0.391666651
Levenshtein - > 75个
N-Gram, - > 0.9375
Damerau - > 75个
Jaccard指数 - > 0
Sorensen-Dice - > 0
余弦 - > 0

但是字符串1和字符串3并没有完全相关,但是距离法给出了非常高的分数 Jaro Winkler - > 0.435714275
Levenshtein - > 133个
N-Gram, - > 0.953571439
Damerau - > 133个
Jaccard指数 - > 1
Sorensen-Dice - > 0
余弦 - > 0

有什么想法。?

2 个答案:

答案 0 :(得分:1)

所有距离计算得分都区分大小写。因此,将所有这些都带到同一案件中。然后你可以适当地看到分数计算。

答案 1 :(得分:1)

我相信你的目标是检查这两种产品是否相同。我想这些数据形成了不同的来源,如果是这样的数据你需要找出值得比较的最重要的提及是什么?!品牌名称,规格等......

这些指标遵循非常粗略的相似性概念!,不要仅仅提供这样的数据。

首先清除(删除标点符号,非重要单词),标记化(打破单个单词的句子)然后你可以使用fuzzywuzzy来帮助找到更好的匹配。