最接近的字符串匹配用于比较OCR结果

时间:2015-10-12 02:51:18

标签: python algorithm language-agnostic string-comparison levenshtein-distance

我正在拍摄一些样本图像。我已在单独的文本文件中手动读取和存储这些图像中包含的文本。

我希望测试我的OCR成功率。所以,我正在寻找一种能够在比较OCR文本与我手动阅读和存储文本时的成功百分比的算法。

关键是如果单词之间有空格,我不想将其标记为完全失败。

例如:

示例1:

Actual Text: Treadstone is a great tire 
OCR'd text v1: Treadstone is a great tire (100%)
OCR'd text v2: Tread stone is a great tire (~90%)
OCR'd text v3: Tread stone tire great is a (same as v2)
OCR'd text v4: Freadstone is a freat tyre (~80%)

我可以使用已知的算法吗?如果没有,我应该采用什么方法来计算这个成功率呢?

1 个答案:

答案 0 :(得分:0)

考虑使用Levenshtein字符串编辑距离。您可以通过为空格插入/删除指定不同的惩罚来对其进行微调。

您可能需要设置最大允许距离,以限制长字符串的运行时间。