我正在使用pytesseract
执行OCR。我的应用程序仅对具有特定字体的PNG执行OCR,因此我正在将tesseract训练为该特定字体。
考虑以下测试图像(test_1.png
):
此代码:
img = Image.open('test_1.png')
pytesseract.image_to_string(image=img)
将产生以下结果:
Lorem ipsum dolor sit amet, consectetm
elit. Fusce tcmpus dignissim diam. Null
dapibus cu, dignissim nec, vulputate egt
Curabitur aliquam, augue eget posuere z
lacus varius augue, sit amet lacinia uma
我想生成一个.box文件,以便可以训练tesseract。 我正在使用以下代码来执行此操作(完全相同的图像):
boxes = pytesseract.image_to_boxes(image=img)
这会产生完全不同的结果:
问题:为什么image_to_text
和image_to_boxes
的结果之间有如此大的差异?