我们正在开发Record连接项目。 我们观察到所有标准技术的奇怪行为,如Jaro Winkler,Levenshtein,N-Gram,Damerau-Levenshtein,Jaccard指数,Sorensen-Dice
说,
字符串1 = MINI GRINDER KIT
String 2 = Weiler 13001迷你磨床附件套件,适用于小型直角磨床
String 3 =密尔沃基视频内窥镜,旋转检测范围,系列:M-SPECTOR 360,2.7英寸640 x 480像素高分辨率LCD,塑料,黑色/红色
在上述情况下,字符串1和字符串2与所有方法的分数相关,如下所示
Jaro Winkler - > 0.391666651
Levenshtein - > 75个
N-Gram, - > 0.9375
Damerau - > 75个
Jaccard指数 - > 0
Sorensen-Dice - > 0
余弦 - > 0
但是字符串1和字符串3并没有完全相关,但是距离法给出了非常高的分数
Jaro Winkler - > 0.435714275
Levenshtein - > 133个
N-Gram, - > 0.953571439
Damerau - > 133个
Jaccard指数 - > 1
Sorensen-Dice - > 0
余弦 - > 0
有什么想法。?
答案 0 :(得分:1)
所有距离计算得分都区分大小写。因此,将所有这些都带到同一案件中。然后你可以适当地看到分数计算。
答案 1 :(得分:1)
我相信你的目标是检查这两种产品是否相同。我想这些数据形成了不同的来源,如果是这样的数据你需要找出值得比较的最重要的提及是什么?!品牌名称,规格等......
这些指标遵循非常粗略的相似性概念!,不要仅仅提供这样的数据。
首先清除(删除标点符号,非重要单词),标记化(打破单个单词的句子)然后你可以使用fuzzywuzzy来帮助找到更好的匹配。