有没有办法用小字体改进tesseract OCR?

时间:2011-02-05 20:15:57

标签: ocr tesseract python-imaging-library

我正在尝试通过python-tesseract使用tesseract-OCR来读取如下所示的低分辨率字体:

enter image description here

不幸的是,图片返回

ZIJZHZI

我认为分辨率太低,导致问题。我已经尝试放大图像,并将其裁剪为单个字符,但这些都没有提供太多改进。还有什么我应该考虑做的事情,最好是可以使用Python Imaging Library完成的事情吗?或者我应该放弃/训练tesseract。

对于它的价值,PIL具有以下内置过滤器:

  

BLUR,CONTOUR,DETAIL,EDGE_ENHANCE,
  EDGE_ENHANCE_MORE,EMBOSS,FIND_EDGES,
  SMOOTH,SMOOTH_MORE和SHARPEN

1 个答案:

答案 0 :(得分:17)

我试图用以下方式放大图像:

  convert -resize 400% in.bmp out.bmp

然后阅读:

  tesseract out.bmp res

结果是正确的:

  100