Pytesseract不会重新整理非常清晰的图像

时间:2019-01-28 01:20:58

标签: ocr tesseract python-tesseract

我在pytesseract中添加了数字“ 2”的三个相似图像。只有在最后一个中,pytesseract才能正确地重新调整数字。这三个图像的尺寸不同,如果我以正确的方式更改图像的尺寸,则pytesseract会正确地对其进行调整。但是我不明白像tesseract这样的强大ocr在如此简单清晰的图像中如何无法正常工作。

first image, fail in recognize

second image, also fail

third image, sucessful

im在anaconda中使用python 3.7,tesseract v4.0.0.20181030  Leptonica-1.76.0   libgif 5.1.4:libjpeg 8d(libjpeg-turbo 1.5.3):libpng 1.6.34:libtiff 4.0.9:zlib 1.2.11:libwebp 0.6.1:libopenjp2 2.2.0

1 个答案:

答案 0 :(得分:0)

您可以找到有关如何培训tesseract-ocr here的大量文档。

培训tesseract的唯一棘手的部分是盒子文件,我建议您使用:

Tesseract-OCR Chopper

生成用于训练的Boxfile。