使用SQL Server Standard Edition 2008 R2进行模糊匹配

时间:2016-02-19 00:30:18

标签: sql sql-server sql-server-2008-r2 duplicates fuzzy-logic

我有一个关于重复删除/清理公司和地址列表(90K)并将它们合并的问题。这个列表的一个例子是

Google, Google INC, G INC, Google - New York, Google Chicago

使用不同或相同的地址。总而言之,数据是一团糟。

我的约束是,为了做到这一点,我只能访问SQL Server 2008 R2 Standard。因此,我没有主数据服务。我使用SOUNDEX,Levenshtein等阅读了许多博客文章,但不相信它们会足够有效。此外,我已经考虑过CLR功能,但已阅读它们需要很长时间。

我的问题是,鉴于我对约束的数据类型,最佳结果是什么方法(算法,CLR函数,其他)?对SQL Server之外的解决方案的建议也将受到赞赏。

如果您希望得到任何其他信息,请与我们联系。

0 个答案:

没有答案