Tesseract斗争确实找到明确的词

时间:2017-01-08 19:50:35

标签: ocr tesseract python-tesseract

我有一张320dpi的照片。我裁剪了一个部分,使其灰度和二值化(阈值)使其更清晰。这是它的外观:

enter image description here

我似乎很清楚,识别并不难,但是tesseract似乎永远无法得到文本。我试过psm 6,7,8,但没有一个能解决它。

tesseract(v3)无法正常工作,我做错了什么。

1 个答案:

答案 0 :(得分:0)

您需要申请

准确识别需要上采样。阈值将使角色的特征可用。

阈值的结果:

enter image description here

现在你读到:

Allin

代码:


import cv2
import pytesseract

img = cv2.imread('3Po5A.png')
gry = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
(h, w) = gry.shape[:2]
gry = cv2.resize(gry, (w*2, h*2))
thr = cv2.threshold(gry, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
txt = pytesseract.image_to_string(thr, config="--psm 6")
print(txt)
cv2.imshow("thr", thr)
cv2.waitKey(0)

请注意,您可以使用不同的 preprocessing techniques 获得相同的结果。