tesseract输出与输入图像不同

时间:2019-04-02 06:55:04

标签: python-3.x opencv tesseract

我正在使用tesseract和pytesseract(在python中)对裁剪后的图像执行ocr。裁剪的图像之一是dd/mm/yyyy中的日期格式。我得到的输出文本是dd,/mm,/yyyy。这背后的原因是什么?如何提高OCR质量?

我已经对裁剪后的图像进行了一些预处理,包括填充,形态转换(内核=椭圆形)。

gray = cv2.cvtColor(img2, cv2.COLOR_BGR2GRAY)
kernel1 = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(5,5))
close = cv2.morphologyEx(gray,cv2.MORPH_CLOSE,kernel1)
div = np.float32(gray)/(close)
res = np.uint8(cv2.normalize(div,div,0,255,cv2.NORM_MINMAX))
text = pytesseract.image_to_string(res, lang='eng', config=config)

Input Image : 18/05/1997
输出文本:18,/ 05,/ 1997
预期文本:18/05/1997

1 个答案:

答案 0 :(得分:0)

如果您使用的是tesseract 4.x,请使用tessdata_best中的trainneddata:

$ tesseract z9Rut.png - --dpi 300
18/05/1981