应用错误收集

Tesseract OCR无法识别基本的字母数字代码

时间：2017-09-01 23:40:29

标签： ocr tesseract

Tesseract似乎在识别基本字母数字代码方面存在问题。我已经尝试升级图像，更改为等宽字体并关闭字典而没有提高OCR质量。

以下图片被识别如下：

i3DOIIH_My ActivitiesJ

MmRSes_My Accounm DBYCAe_My Submissions1

Hrti6_My Renewam

如您所见，识别的字符完全关闭。

2 个答案:

答案 0 :(得分：1)

原始图片尺寸为1508 x 1092 pixels，有4行加垂直间距，看起来太大了。

将图像缩小为503 x 364 pixels后，字符高度为76 pixels。

Tesseract在文本上提供100％的OCR结果。

字体大小和背景颜色会影响OCR结果。最佳结果将从黑白文本中获得。否则，可能需要进行图像预处理。

希望得到这个帮助。

答案 1 :(得分：0)

为这些类型的字符（包括特殊字符）训练tesseract。请参阅此Tesseract Training