我们有一个第三方“工具”,可以找到相似名称,并在两个名称之间分配相似度得分。
我应该尽可能地模仿工具的行为。 在互联网上搜索后,进行了远距离拍摄。使用fuzzywuzzy进行同样的操作。
SELECT * FROM sys.sql_modules WHERE definition uses_ansi_nulls = 1
它的结果接近工具的结果。但是离群值很少-如下所示。
在通过Internet进行进一步搜索之后,我了解到进一步的改进将需要实施某种形式的机器学习。我是机器学习领域的一名新手-因此,我就下一步应该进一步完善代码的地方寻求建议。
谢谢!
答案 0 :(得分:2)
看看这个包。它是为名称匹配量身定制的 HMNI Package
答案 1 :(得分:0)
看看用于模糊字符串匹配的Jaccard和Levenshtein算法。两者都相对简单,可以用大约40或50行代码实现。