我正在尝试通过python-tesseract使用tesseract-OCR来读取如下所示的低分辨率字体:
不幸的是,图片返回
ZIJZHZI
我认为分辨率太低,导致问题。我已经尝试放大图像,并将其裁剪为单个字符,但这些都没有提供太多改进。还有什么我应该考虑做的事情,最好是可以使用Python Imaging Library完成的事情吗?或者我应该放弃/训练tesseract。
对于它的价值,PIL具有以下内置过滤器:
BLUR,CONTOUR,DETAIL,EDGE_ENHANCE,
EDGE_ENHANCE_MORE,EMBOSS,FIND_EDGES,
SMOOTH,SMOOTH_MORE和SHARPEN
答案 0 :(得分:17)
我试图用以下方式放大图像:
convert -resize 400% in.bmp out.bmp
然后阅读:
tesseract out.bmp res
结果是正确的:
100