这并不是How to extract decimal in image with Pytesseract的真正副本,因为这些答案不能解决我的问题,而且我的用例也不同。
我正在使用PyTesseract识别表格单元格中的文本。在识别带小数点的药物剂量时,OCR无法识别.
,尽管对于其他所有内容都是准确的。我在Windows 10上使用tesseract v5.0.0-alpha.20200328
。
我的预处理过程包括使用三次放大400%,转换为黑白,膨胀和腐蚀,形态以及模糊。我已经尝试了所有这些的合理组合(以及各自独立),但没有人认识到.
。
我尝试了--psm
的各种值以及字符白名单。我相信字体是Sergoe UI
。
PyTesseract输出:25mg »p
处理代码:
import cv2, pytesseract
import numpy as np
image = cv2.imread( '01.png' )
upscaled_image = cv2.resize(image, None, fx = 4, fy = 4, interpolation = cv2.INTER_CUBIC)
bw_image = cv2.cvtColor(upscaled_image, cv2.COLOR_BGR2GRAY)
kernel = np.ones((2, 2), np.uint8)
dilated_image = cv2.dilate(bw_image, kernel, iterations=1)
eroded_image = cv2.erode(dilated_image, kernel, iterations=1)
thresh = cv2.threshold(eroded_image, 205, 255, cv2.THRESH_BINARY)[1]
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3))
morh_image = cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel)
blur_image = cv2.threshold(cv2.bilateralFilter(morh_image, 5, 75, 75), 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
final_image = blur_image
text = pytesseract.image_to_string(final_image, lang='eng', config='--psm 10')
答案 0 :(得分:1)
如果不确定,请查看此链接
访问https://groups.google.com/g/tesseract-ocr/c/Wdh_JJwnw94/m/xk2ErJnFBQAJ
许多问题的一个主要解决方案是文本高度,我遇到了很多问题,但无法弄清楚原因,但是似乎将带有正确大小字母的图像发送给tesseract解决了许多问题。 而不是提升到随机百分比,请尝试使用图像的字母接近30-40 Px的数字。
如果某种程度上,您的预处理也更改为“。”变成类似char的声音,它也会被忽略。
答案 1 :(得分:0)
我有一个类似的案例,能够通过使用图像处理方法和图像放大来增加正确小数的数量。然而,有一小部分小数没有被正确识别。
我找到的解决方案是更改 pytesseract 的语言设置:
我使用的是非英语设置,但将配置更改为 lang='eng'
解决了所有剩余问题。
不过,这可能对原始问题没有帮助,因为设置已经是 eng
。