Python PIL图像文本无法正常工作

时间:2017-03-26 11:55:05

标签: python image python-imaging-library tesseract pillow

下面是我在图像上阅读文本的python脚本。但它不能正常工作t被视为+f。我想知道如何处理这个问题? 我还附上了我想读的文件。

import tesserocr
from PIL import Image

print tesserocr.tesseract_version()  # print tesseract-ocr version
print tesserocr.get_languages()  # prints tessdata path and list of available languages

image = Image.open('test.png')
#print tesserocr.image_to_text(image)  # print ocr text from image
# or
print tesserocr.file_to_text('test.png')

enter image description here

1 个答案:

答案 0 :(得分:0)

在命令行中使用Tesseract 4.0.0 alpha运行,结果如下。

  • tesseract PILtoText.png PILtoText_out.txt -c preserve_interword_spaces=1 --psm 3 --oem 3
  

在今天向美国证券交易委员会提交的监管文件中,Adobe宣布   首席技术官Kevin Lynch将休假   即将到来的星期五。

     

2013年3月18日,Kevin Lynch辞去了执行职务   Adobe Systems副总裁兼首席技术官   成立于2013年3月22日,旨在寻求其他机会   提交读书.Lynch,2005年来到公司   收购Macromedia,导致Adobe的收费更多   尖端技术领域,包括多屏幕计算,   云计算和社交媒体。

     多年来,Adobe一直扎根于打印设计的工作流程   社区;林奇负责公司转向网络   发布,从Dreamweaver开始。他还监督Adobe的   研究和经验设计团队,正如Adobe所说的那样   负责“塑造Adobe的长期技术愿景和重点   在变革时期,整个公司的创新。“

     

网络上的谣言已经确定苹果是林奇的下一个   目的地,这不是一个完全荒谬的谣言。 Adobe的   如果没有盈利,过渡到网络技术一无所获。   苹果仍然是消费者硬件的巨头,可以伸出援助之手   当谈到多屏幕流动性,社交媒体和基于网络的   软件

结果显示正确识别文本图像,但大写F转换为f。例如,第一段中 F riday到 f riday。

如果您使用Tesseract 3.x,建议将其升级到Tesseract 4.0以改善OCR结果。