应用错误收集

我正在使用pytesseract执行OCR。我的应用程序仅对具有特定字体的PNG执行OCR，因此我正在将tesseract训练为该特定字体。

考虑以下测试图像（test_1.png）：

此代码：

img = Image.open('test_1.png')
pytesseract.image_to_string(image=img)

将产生以下结果：

Lorem ipsum dolor sit amet, consectetm
elit. Fusce tcmpus dignissim diam. Null
dapibus cu, dignissim nec, vulputate egt
Curabitur aliquam, augue eget posuere z
lacus varius augue, sit amet lacinia uma

我想生成一个.box文件，以便可以训练tesseract。我正在使用以下代码来执行此操作（完全相同的图像）：

boxes = pytesseract.image_to_boxes(image=img)

这会产生完全不同的结果：

问题：为什么image_to_text和image_to_boxes的结果之间有如此大的差异？

pytesseract | image_to_string和image_to_boxes之间的区别

0 个答案: