pytessarect / Tessarect行的行输出

时间:2018-11-19 16:44:53

标签: python-3.x tesseract python-tesseract

我正在使用pytessarect(0.2.5)读取同一页面上不同结构的文档,即:

SomeText
SomeText
SomeText

SomeTextSomeTextSomeTextSomeTextSomeText

SomeText:  SomeText  SomeText: SomeText:
SomeText:  SomeText  SomeText SomeText SomeText
SomeText:  SomeText
SomeText:  SomeText

SomeText:  SomeText
SomeText:  SomeText

我想让tessarect逐行读取数据,到目前为止,我通过具有类似问题(Here和{{的帖子)找到了psm选项(在0-13之间变化,最推荐使用psm 4或6) 3}})。不幸的是,我尝试了psm的每个选项,并且可以解决我的问题。我查看了文档,但找不到其他选择。有人遇到过类似的问题并成功解决了吗?有没有办法强迫tesseract逐行读取图像(尽管有psm)? 任何帮助,不胜感激!

编辑:现在下部按列读取,我试图防止这种情况。

Edit2:添加了命令

text = [] 
tess_cfg = '--psm 6 --oem 1 --hocr'   
for image in images:
   text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)

1 个答案:

答案 0 :(得分:0)

我可以找到我的错误,无论您使用tess_cfg = '--psm 6 --oem 1 --hocr'还是tess_cfg = '-psm 6 -oem 1 -hocr'似乎都不同。第一个似乎无法正常工作。