我正在使用tesseract和pytesseract(在python中)对裁剪后的图像执行ocr。裁剪的图像之一是dd/mm/yyyy
中的日期格式。我得到的输出文本是dd,/mm,/yyyy
。这背后的原因是什么?如何提高OCR质量?
我已经对裁剪后的图像进行了一些预处理,包括填充,形态转换(内核=椭圆形)。
gray = cv2.cvtColor(img2, cv2.COLOR_BGR2GRAY)
kernel1 = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(5,5))
close = cv2.morphologyEx(gray,cv2.MORPH_CLOSE,kernel1)
div = np.float32(gray)/(close)
res = np.uint8(cv2.normalize(div,div,0,255,cv2.NORM_MINMAX))
text = pytesseract.image_to_string(res, lang='eng', config=config)
Input Image : 18/05/1997
输出文本:18,/ 05,/ 1997
预期文本:18/05/1997
答案 0 :(得分:0)
如果您使用的是tesseract 4.x,请使用tessdata_best中的trainneddata:
$ tesseract z9Rut.png - --dpi 300
18/05/1981