Question

Sample Image

PyTesseract（tesseract 4.0）只是拒绝发出任何预测，无论我使用什么-psm值，无论图像大小是大还是小，无论我使用高斯模糊和/或中值模糊。我已经尝试了大多数阅读过的内容，即使使用图片中的EXACT字体制作的.traineddata文件，也可以改善图像的识别度。

我还能做什么？这似乎是一个非常简单的图像，可读取...我在做蠢事吗？

节选（不包括某些模糊尝试）：

import cv2
import pytesseract

def load(name):
    return cv2.imread('resources/' + name)
img = load('2048.png')
img = cv2.resize(img, (1500, 1500))
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
ret, thresh = cv2.threshold(img, 220, 255, cv2.THRESH_BINARY_INV)
cv2.imshow('f', thresh)
print(pytesseract.image_to_string(thresh, lang='Clear', config='-psm 7'))
while True:
    if cv2.waitKey(0) == ord('q'):
        break
cv2.destroyAllWindows()

清除是我的.traineddata文件，我也尝试过eng。如前所述，我也尝试了所有psm配置。

Answer 1

我已经自己解决了。问题在于图像太大。根据我的阅读，我一直认为越大越好，但我决定减小尺寸以查看是否有问题。它是！现在一切正常。

（Py）Tesseract无法从简单图像读取文本

1 个答案: