Tesseract OCR无法识别基本的字母数字代码

时间:2017-09-01 23:40:29

标签: ocr tesseract

Tesseract似乎在识别基本字母数字代码方面存在问题。我已经尝试升级图像,更改为等宽字体并关闭字典而没有提高OCR质量。

以下图片被识别如下:

i3DOIIH_My ActivitiesJ

MmRSes_My Accounm DBYCAe_My Submissions1

Hrti6_My Renewam

enter image description here

如您所见,识别的字符完全关闭。

2 个答案:

答案 0 :(得分:1)

原始图片尺寸为1508 x 1092 pixels,有4行加垂直间距,看起来太大了。

将图像缩小为503 x 364 pixels后,字符高度为76 pixelsenter image description here

Tesseract在文本上提供100%的OCR结果。 enter image description here

字体大小和背景颜色会影响OCR结果。最佳结果将从黑白文本中获得。否则,可能需要进行图像预处理。

希望得到这个帮助。

答案 1 :(得分:0)

为这些类型的字符(包括特殊字符)训练tesseract。请参阅此Tesseract Training