应用错误收集

Pytesseract不会重新整理非常清晰的图像

时间：2019-01-28 01:20:58

标签： ocr tesseract python-tesseract

我在pytesseract中添加了数字“ 2”的三个相似图像。只有在最后一个中，pytesseract才能正确地重新调整数字。这三个图像的尺寸不同，如果我以正确的方式更改图像的尺寸，则pytesseract会正确地对其进行调整。但是我不明白像tesseract这样的强大ocr在如此简单清晰的图像中如何无法正常工作。

first image, fail in recognize

second image, also fail

third image, sucessful

im在anaconda中使用python 3.7，tesseract v4.0.0.20181030 Leptonica-1.76.0 libgif 5.1.4：libjpeg 8d（libjpeg-turbo 1.5.3）：libpng 1.6.34：libtiff 4.0.9：zlib 1.2.11：libwebp 0.6.1：libopenjp2 2.2.0

1 个答案:

答案 0 :(得分：0)

您可以找到有关如何培训tesseract-ocr here的大量文档。

培训tesseract的唯一棘手的部分是盒子文件，我建议您使用：

Tesseract-OCR Chopper

生成用于训练的Boxfile。