应用错误收集

使用字符串相似性技术记录链接

时间：2017-01-25 19:21:45

标签： string record similarity levenshtein-distance linkage

我们正在开发Record连接项目。我们观察到所有标准技术的奇怪行为，如Jaro Winkler，Levenshtein，N-Gram，Damerau-Levenshtein，Jaccard指数，Sorensen-Dice

说，字符串1 = MINI GRINDER KIT
String 2 = Weiler 13001迷你磨床附件套件，适用于小型直角磨床
String 3 =密尔沃基视频内窥镜，旋转检测范围，系列：M-SPECTOR 360,2.7英寸640 x 480像素高分辨率LCD，塑料，黑色/红色

在上述情况下，字符串1和字符串2与所有方法的分数相关，如下所示 Jaro Winkler - ＆gt; 0.391666651
Levenshtein - ＆gt; 75个
N-Gram， - ＆gt; 0.9375
Damerau - ＆gt; 75个
Jaccard指数 - ＆gt; 0
Sorensen-Dice - ＆gt; 0
余弦 - ＆gt; 0

但是字符串1和字符串3并没有完全相关，但是距离法给出了非常高的分数 Jaro Winkler - ＆gt; 0.435714275
Levenshtein - ＆gt; 133个
N-Gram， - ＆gt; 0.953571439
Damerau - ＆gt; 133个
Jaccard指数 - ＆gt; 1
Sorensen-Dice - ＆gt; 0
余弦 - ＆gt; 0

有什么想法。？

2 个答案:

答案 0 :(得分：1)

所有距离计算得分都区分大小写。因此，将所有这些都带到同一案件中。然后你可以适当地看到分数计算。

答案 1 :(得分：1)

我相信你的目标是检查这两种产品是否相同。我想这些数据形成了不同的来源，如果是这样的数据你需要找出值得比较的最重要的提及是什么？！品牌名称，规格等......

这些指标遵循非常粗略的相似性概念！，不要仅仅提供这样的数据。

首先清除（删除标点符号，非重要单词），标记化（打破单个单词的句子）然后你可以使用fuzzywuzzy来帮助找到更好的匹配。