应用错误收集

我同意评论者的意见，这主要是商业规则而不是编程问题，但是它的价值是什么......

多年前我的目录有点类似问题。参赛作品并不总是以我们希望的方式保持一致，不同的版本奇怪地出现并且有各种各样的变化。所有这些都必须联系起来。

我最后做的是模糊匹配器。将项目分解为组件。我尽可能地将数据标准化 - 从并不总是拥有它们的字段中删除空格，例如可以没有它们。计算出了近距离失误之间的距离 - 例如，酒吧与汽车之间的距离为1。我用词干 - 请参阅http://snowball.tartarus.org/algorithms/english/stemmer.html了解更多信息。我想我甚至玩过SQL Server的SOUNDEX匹配。

然后我通过编写了这份工作来编写候选匹配列表。高于某一级别的任何内容都会呈现给管理员，管理员会看到该程序认为最佳匹配以及其他可能的匹配。他们挑选了一个看起来最好的，勾选它并继续下一个。

在列表的开头，每个人都认为这项工作太过庞大，无法管理。然后他们开始通过它，发现它比他们想象的要快得多，并且比他们担心在新数据出现时更加容易。

以编程方式完成所有操作的脚本将永远不会完美，并且最终会与源列表一样长，并且会产生尽可能多的异议。不要试图完美地自动化它;自动化简单的东西，把人放在循环中以应对不确定的情况。更容易和更安全。

英国邮政地址匹配策略

1 个答案: