(Py)Tesseract无法从简单图像读取文本

时间:2019-08-17 14:08:59

标签: python-3.x image-processing tesseract image-recognition python-tesseract

Sample Image

PyTesseract(tesseract 4.0)只是拒绝发出任何预测,无论我使用什么-psm值,无论图像大小是大还是小,无论我使用高斯模糊和/或中值模糊。我已经尝试了大多数阅读过的内容,即使使用图片中的EXACT字体制作的.traineddata文件,也可以改善图像的识别度。

我还能做什么?这似乎是一个非常简单的图像,可读取...我在做蠢事吗?

节选(不包括某些模糊尝试):

import cv2
import pytesseract

def load(name):
    return cv2.imread('resources/' + name)
img = load('2048.png')
img = cv2.resize(img, (1500, 1500))
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
ret, thresh = cv2.threshold(img, 220, 255, cv2.THRESH_BINARY_INV)
cv2.imshow('f', thresh)
print(pytesseract.image_to_string(thresh, lang='Clear', config='-psm 7'))
while True:
    if cv2.waitKey(0) == ord('q'):
        break
cv2.destroyAllWindows()

清除是我的.traineddata文件,我也尝试过eng。 如前所述,我也尝试了所有psm配置。

1 个答案:

答案 0 :(得分:2)

我已经自己解决了。问题在于图像太大。根据我的阅读,我一直认为越大越好,但我决定减小尺寸以查看是否有问题。它是!现在一切正常。