我正在使用pytessarect(0.2.5)读取同一页面上不同结构的文档,即:
SomeText
SomeText
SomeText
SomeTextSomeTextSomeTextSomeTextSomeText
SomeText: SomeText SomeText: SomeText:
SomeText: SomeText SomeText SomeText SomeText
SomeText: SomeText
SomeText: SomeText
SomeText: SomeText
SomeText: SomeText
我想让tessarect逐行读取数据,到目前为止,我通过具有类似问题(Here和{{的帖子)找到了psm选项(在0-13之间变化,最推荐使用psm 4或6) 3}})。不幸的是,我尝试了psm的每个选项,并且可以解决我的问题。我查看了文档,但找不到其他选择。有人遇到过类似的问题并成功解决了吗?有没有办法强迫tesseract逐行读取图像(尽管有psm)? 任何帮助,不胜感激!
编辑:现在下部按列读取,我试图防止这种情况。
Edit2:添加了命令
text = []
tess_cfg = '--psm 6 --oem 1 --hocr'
for image in images:
text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)
答案 0 :(得分:0)
我可以找到我的错误,无论您使用tess_cfg = '--psm 6 --oem 1 --hocr'
还是tess_cfg = '-psm 6 -oem 1 -hocr'
似乎都不同。第一个似乎无法正常工作。