OCR的字距算法

时间:2014-03-31 10:03:42

标签: algorithm ocr levenshtein-distance hamming-distance

我正在使用OCR输出,我正在搜索其中的特殊单词。

由于输出不干净,我会根据低于特定阈值的字距来查找与输入匹配的元素。

然而,我觉得Levenshtein距离或汉明距离并不是最好的方式,因为OCR总是会出现同样的错误:我为1,O代表O,Q代表O ...而这些“经典” “例如,错误似乎不如”A for K“重要。因此,这些距离并不关心字符外观的差异(低/高)。

是否有专门为OCR制作的单词距离算法,我可以使用哪种更符合我的情况?或者我应该根据角色的视觉差异凭经验实现自定义单词距离吗?

2 个答案:

答案 0 :(得分:2)

Levenshtein距离允许您为每个替换对指定不同的成本(http://en.wikipedia.org/wiki/Levenshtein_distance#Possible_modifications,第五项)。因此,您可以通过或多或少地强调常见错误来调整它以满足您的需求。

答案 1 :(得分:1)

我想要一个字母不匹配的自定义成本函数,你可以看一下Needleman-Wunsch算法(NW)