此问题与Tools for matching name/address data有关。 SAS,Oracle,Microsoft等提供了许多商业工具,可以删除或合并来自多个来源的个人或公司的名称。
然而,在阅读了前面提到的问题的答案之后,我想知道为什么一个看似有趣的问题没有得到任何答案,提到可以解决问题的开源项目。
您是否了解任何开源项目或算法以实现所谓的“记录链接”,“记录合并”或“群集”?
答案 0 :(得分:4)
我建议使用Google Refine作为开源(New BSD license)工具来解析和修复crufty数据。它还允许对重复数据进行聚类和协调,以及具有数据挖掘功能。
我用它以各种格式导入和修复大量数据,.csv,.tsv,.xls,.xml,.json,.rdf等成功。它可以在内部使用而无需在外部发送任何数据,这似乎是问题的关注 "tools for matching name/address data"
NB。 Google Refine以前称为Freebase Gridworks。
答案 1 :(得分:0)
我偶然发现了以下文章:“Merge/Purge and Duplicate Detection”。
通过查看http://www.semaphorecorp.com我发现了一些极低的价格。
这不是我想要的,但至少是一些帮助,并朝着正确的方向迈出了一步。
答案 2 :(得分:0)
在sourceforge上尝试OSDQ开源数据质量和分析项目