应用错误收集

模糊组

时间：2015-04-25 11:09:26

标签： ssis fuzzy-logic

我工作的公司购买数据清理和匹配软件，每晚清理和匹配信息。运行大约需要十五个小时。

我在SSIS中发现了模糊组/模糊查找组件，相比之下我的经验非常快。我有一些问题：

这些组件使用哪些算法？我读过他们使用的文章：Soundex，soundex，QGrams和Levenstein Distance的变体或四者的组合。是否有任何文档明确指出了他们使用的算法？

1 个答案:

答案 0 :(得分：0)

Microsoft Research的这个页面在很高的层次上描述了这些 http://research.microsoft.com/en-us/projects/datacleaning/

我认为倒数第二个链接有完整的说明：http://research.microsoft.com/pubs/75996/bm_sigmod03.pdf

它超越了我的脑海，但它看起来就像是他们自己的算法。