我工作的公司购买数据清理和匹配软件,每晚清理和匹配信息。运行大约需要十五个小时。
我在SSIS中发现了模糊组/模糊查找组件,相比之下我的经验非常快。我有一些问题:
这些组件使用哪些算法?我读过他们使用的文章:Soundex,soundex,QGrams和Levenstein Distance的变体或四者的组合。是否有任何文档明确指出了他们使用的算法?
答案 0 :(得分:0)
Microsoft Research的这个页面在很高的层次上描述了这些 http://research.microsoft.com/en-us/projects/datacleaning/
我认为倒数第二个链接有完整的说明:http://research.microsoft.com/pubs/75996/bm_sigmod03.pdf
它超越了我的脑海,但它看起来就像是他们自己的算法。