应用错误收集

我正在开发一个进行OCR后处理的引擎，目前我在数据库中有一组组织，包括商会号码。

同样从OCR输出中我得到了可能的商会（COC）号码列表。

搜索最相似的最佳方法是什么？目前我正在使用Levenshtein Distance，但结果范围太大而且在大型数据库上我真的怀疑它的可行性。目前它是用Java实现的，数据库是一个MySQL数据库。

附注：荷兰的商会号码被定义为每个公司的8位数字，该系统的早期版本使用另外4位数字（0000,0001等）来表示一个组织，如今正在为这些人提供全新的COC号码。

COCNumbers的例子：

通过后处理确定的可能COCN数列表：

一些额外的说明：

我如何继续寻找一般的最佳匹配？（在这种情况下（13041611，KvK13041611）是最好的（而且更正确）匹配）

在MySQL中专门进行这种匹配可能是个坏主意，原因很简单：没有办法使用正则表达式本地修改字符串。

根据我的经验（来自ISBN和其他图书识别数据），您将需要使用某种评分算法来实现这一目标。

这是程序性的 - 你可能需要用Java（或其他一些过程编程语言）来完成它。

如果您匹配相同长度的子串，您可以尝试使用Levenshtein的距离来处理这些剩余的项目。它们的数量也可能足够少，您可以手动更正数据并继续。

另一种可能性：您可以使用Amazon Mechanical Turk购买众包劳工以解决一些疑难案件。