Tesseract似乎在识别基本字母数字代码方面存在问题。我已经尝试升级图像,更改为等宽字体并关闭字典而没有提高OCR质量。
以下图片被识别如下:
i3DOIIH_My ActivitiesJ
MmRSes_My Accounm DBYCAe_My Submissions1
Hrti6_My Renewam
如您所见,识别的字符完全关闭。
答案 0 :(得分:1)
原始图片尺寸为1508 x 1092 pixels
,有4行加垂直间距,看起来太大了。
将图像缩小为503 x 364 pixels
后,字符高度为76 pixels
。
字体大小和背景颜色会影响OCR结果。最佳结果将从黑白文本中获得。否则,可能需要进行图像预处理。
希望得到这个帮助。
答案 1 :(得分:0)
为这些类型的字符(包括特殊字符)训练tesseract。请参阅此Tesseract Training