pytesseract | image_to_string和image_to_boxes之间的区别

时间:2019-01-18 01:12:30

标签: ocr tesseract python-tesseract

我正在使用pytesseract执行OCR。我的应用程序仅对具有特定字体的PNG执行OCR,因此我正在将tesseract训练为该特定字体。

考虑以下测试图像(test_1.png):

enter image description here

此代码:

img = Image.open('test_1.png')
pytesseract.image_to_string(image=img)

将产生以下结果:

Lorem ipsum dolor sit amet, consectetm
elit. Fusce tcmpus dignissim diam. Null
dapibus cu, dignissim nec, vulputate egt
Curabitur aliquam, augue eget posuere z
lacus varius augue, sit amet lacinia uma

我想生成一个.box文件,以便可以训练tesseract。 我正在使用以下代码来执行此操作(完全相同的图像):

boxes = pytesseract.image_to_boxes(image=img)

这会产生完全不同的结果:

enter image description here

问题:为什么image_to_textimage_to_boxes的结果之间有如此大的差异?

0 个答案:

没有答案