Question

我正在拍摄一些样本图像。我已在单独的文本文件中手动读取和存储这些图像中包含的文本。

我希望测试我的OCR成功率。所以，我正在寻找一种能够在比较OCR文本与我手动阅读和存储文本时的成功百分比的算法。

关键是如果单词之间有空格，我不想将其标记为完全失败。

例如：

示例1：

Actual Text: Treadstone is a great tire 
OCR'd text v1: Treadstone is a great tire (100%)
OCR'd text v2: Tread stone is a great tire (~90%)
OCR'd text v3: Tread stone tire great is a (same as v2)
OCR'd text v4: Freadstone is a freat tyre (~80%)

我可以使用已知的算法吗？如果没有，我应该采用什么方法来计算这个成功率呢？

Answer 1

考虑使用Levenshtein字符串编辑距离。您可以通过为空格插入/删除指定不同的惩罚来对其进行微调。

您可能需要设置最大允许距离，以限制长字符串的运行时间。

最接近的字符串匹配用于比较OCR结果

1 个答案: