应用错误收集

基于多个输入匹配“模糊”数据

时间：2011-02-19 16:37:34

标签： search record-linkage

我有搜索和匹配问题：

输入

在我的数据库中，除了一些其他匹配特征之外，我还有数以千计的名称：一些数字数据列，以及一些帮助识别这个特定公司的其他文本列。

潜在客户拥有大约500个公司名称，然后如上所述为每个名称提供了人口稀少的附加特征。

当前流程

过去，该过程是手动过程，尝试通过搜索数据库来匹配客户端给出的每个名称，找到一个名称“喜欢”报告给我的名称，然后验证附加特征是否匹配起来。但是，主要问题是报告的名称不一样，通常可以包含缩写或仅存储在我的数据库中的名称部分，并且附加特征可能不完整或仅部分匹配。

自动化

我想自动执行此过程，因为它经常发生。最佳解决方案将从客户列表中输入一个公司以及它们为其填写的任何其他特征，然后尝试在我的数据库中找到前5个匹配项。

我从未使用过Lucene或Sphinx，但它们似乎更受文档驱动。有没有办法格式化这些输入，以便这些库可以解决这个问题，或者相反，还有哪些其他软件工具可以使用？

1 个答案:

答案 0 :(得分：1)

对于Lucene来说，“文档”很容易成为表格中的一行，我认为你会喜欢模糊搜索和搜索命中评分功能。