Question

下面是我在图像上阅读文本的python脚本。但它不能正常工作t被视为+或f。我想知道如何处理这个问题？我还附上了我想读的文件。

import tesserocr
from PIL import Image

print tesserocr.tesseract_version()  # print tesseract-ocr version
print tesserocr.get_languages()  # prints tessdata path and list of available languages

image = Image.open('test.png')
#print tesserocr.image_to_text(image)  # print ocr text from image
# or
print tesserocr.file_to_text('test.png')

Answer 1

在命令行中使用Tesseract 4.0.0 alpha运行，结果如下。

tesseract PILtoText.png PILtoText_out.txt -c preserve_interword_spaces=1 --psm 3 --oem 3

在今天向美国证券交易委员会提交的监管文件中，Adobe宣布   首席技术官Kevin Lynch将休假   即将到来的星期五。

2013年3月18日，Kevin Lynch辞去了执行职务   Adobe Systems副总裁兼首席技术官   成立于2013年3月22日，旨在寻求其他机会   提交读书.Lynch，2005年来到公司   收购Macromedia，导致Adobe的收费更多   尖端技术领域，包括多屏幕计算，   云计算和社交媒体。
     多年来，Adobe一直扎根于打印设计的工作流程   社区;林奇负责公司转向网络   发布，从Dreamweaver开始。他还监督Adobe的   研究和经验设计团队，正如Adobe所说的那样   负责“塑造Adobe的长期技术愿景和重点   在变革时期，整个公司的创新。“

网络上的谣言已经确定苹果是林奇的下一个   目的地，这不是一个完全荒谬的谣言。 Adobe的   如果没有盈利，过渡到网络技术一无所获。   苹果仍然是消费者硬件的巨头，可以伸出援助之手   当谈到多屏幕流动性，社交媒体和基于网络的   软件

结果显示正确识别文本图像，但大写F转换为f。例如，第一段中 F riday到 f riday。

如果您使用Tesseract 3.x，建议将其升级到Tesseract 4.0以改善OCR结果。

Python PIL图像文本无法正常工作

1 个答案: