应用错误收集

时间：2014-03-31 10:03:42

标签： algorithm ocr levenshtein-distance hamming-distance

我正在使用OCR输出，我正在搜索其中的特殊单词。

由于输出不干净，我会根据低于特定阈值的字距来查找与输入匹配的元素。

然而，我觉得Levenshtein距离或汉明距离并不是最好的方式，因为OCR总是会出现同样的错误：我为1，O代表O，Q代表O ...而这些“经典” “例如，错误似乎不如”A for K“重要。因此，这些距离并不关心字符外观的差异（低/高）。

是否有专门为OCR制作的单词距离算法，我可以使用哪种更符合我的情况？或者我应该根据角色的视觉差异凭经验实现自定义单词距离吗？

答案 0 :(得分：2)

Levenshtein距离允许您为每个替换对指定不同的成本（http://en.wikipedia.org/wiki/Levenshtein_distance#Possible_modifications，第五项）。因此，您可以通过或多或少地强调常见错误来调整它以满足您的需求。

答案 1 :(得分：1)

我想要一个字母不匹配的自定义成本函数，你可以看一下Needleman-Wunsch算法（NW）