模糊组

时间:2015-04-25 11:09:26

标签: ssis fuzzy-logic

我工作的公司购买数据清理和匹配软件,每晚清理和匹配信息。运行大约需要十五个小时。

我在SSIS中发现了模糊组/模糊查找组件,相比之下我的经验非常快。我有一些问题:

这些组件使用哪些算法?我读过他们使用的文章:Soundex,soundex,QGrams和Levenstein Distance的变体或四者的组合。是否有任何文档明确指出了他们使用的算法?

1 个答案:

答案 0 :(得分:0)

Microsoft Research的这个页面在很高的层次上描述了这些 http://research.microsoft.com/en-us/projects/datacleaning/

我认为倒数第二个链接有完整的说明:http://research.microsoft.com/pubs/75996/bm_sigmod03.pdf

它超越了我的脑海,但它看起来就像是他们自己的算法。