下面是我在图像上阅读文本的python脚本。但它不能正常工作t
被视为+
或f
。我想知道如何处理这个问题?
我还附上了我想读的文件。
import tesserocr
from PIL import Image
print tesserocr.tesseract_version() # print tesseract-ocr version
print tesserocr.get_languages() # prints tessdata path and list of available languages
image = Image.open('test.png')
#print tesserocr.image_to_text(image) # print ocr text from image
# or
print tesserocr.file_to_text('test.png')
答案 0 :(得分:0)
在命令行中使用Tesseract 4.0.0 alpha
运行,结果如下。
tesseract PILtoText.png PILtoText_out.txt -c preserve_interword_spaces=1 --psm 3 --oem 3
在今天向美国证券交易委员会提交的监管文件中,Adobe宣布 首席技术官Kevin Lynch将休假 即将到来的星期五。
2013年3月18日,Kevin Lynch辞去了执行职务 Adobe Systems副总裁兼首席技术官 成立于2013年3月22日,旨在寻求其他机会 提交读书.Lynch,2005年来到公司 收购Macromedia,导致Adobe的收费更多 尖端技术领域,包括多屏幕计算, 云计算和社交媒体。
多年来,Adobe一直扎根于打印设计的工作流程 社区;林奇负责公司转向网络 发布,从Dreamweaver开始。他还监督Adobe的 研究和经验设计团队,正如Adobe所说的那样 负责“塑造Adobe的长期技术愿景和重点 在变革时期,整个公司的创新。“网络上的谣言已经确定苹果是林奇的下一个 目的地,这不是一个完全荒谬的谣言。 Adobe的 如果没有盈利,过渡到网络技术一无所获。 苹果仍然是消费者硬件的巨头,可以伸出援助之手 当谈到多屏幕流动性,社交媒体和基于网络的 软件
结果显示正确识别文本图像,但大写F
转换为f
。例如,第一段中 F riday到 f riday。
如果您使用Tesseract 3.x
,建议将其升级到Tesseract 4.0
以改善OCR结果。