是否有免费,低成本或开源工具来匹配名称/地址数据?

时间:2010-05-10 18:46:56

标签: data-quality

此问题与Tools for matching name/address data有关。 SAS,Oracle,Microsoft等提供了许多商业工具,可以删除或合并来自多个来源的个人或公司的名称。

然而,在阅读了前面提到的问题的答案之后,我想知道为什么一个看似有趣的问题没有得到任何答案,提到可以解决问题的开源项目。

您是否了解任何开源项目或算法以实现所谓的“记录链接”,“记录合并”或“群集”?

3 个答案:

答案 0 :(得分:4)

我建议使用Google Refine作为开源(New BSD license)工具来解析和修复crufty数据。它还允许对重复数据进行聚类和协调,以及具有数据挖掘功能。

我用它以各种格式导入和修复大量数据,.csv,.tsv,.xls,.xml,.json,.rdf等成功。它可以在内部使用而无需在外部发送任何数据,这似乎是问题的关注 "tools for matching name/address data"

NB。 Google Refine以前称为Freebase Gridworks。

答案 1 :(得分:0)

我偶然发现了以下文章:“Merge/Purge and Duplicate Detection”。

通过查看http://www.semaphorecorp.com我发现了一些极低的价格。

这不是我想要的,但至少是一些帮助,并朝着正确的方向迈出了一步。

答案 2 :(得分:0)

在sourceforge上尝试OSDQ开源数据质量和分析项目