Question

我正在使用pytessarect（0.2.5）读取同一页面上不同结构的文档，即：

SomeText
SomeText
SomeText

SomeTextSomeTextSomeTextSomeTextSomeText

SomeText:  SomeText  SomeText: SomeText:
SomeText:  SomeText  SomeText SomeText SomeText
SomeText:  SomeText
SomeText:  SomeText

SomeText:  SomeText
SomeText:  SomeText

我想让tessarect逐行读取数据，到目前为止，我通过具有类似问题（Here和{{的帖子）找到了psm选项（在0-13之间变化，最推荐使用psm 4或6） 3}}）。不幸的是，我尝试了psm的每个选项，并且可以解决我的问题。我查看了文档，但找不到其他选择。有人遇到过类似的问题并成功解决了吗？有没有办法强迫tesseract逐行读取图像（尽管有psm）？任何帮助，不胜感激！

编辑：现在下部按列读取，我试图防止这种情况。

Edit2：添加了命令

text = [] 
tess_cfg = '--psm 6 --oem 1 --hocr'   
for image in images:
   text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)

Answer 1

我可以找到我的错误，无论您使用tess_cfg = '--psm 6 --oem 1 --hocr'还是tess_cfg = '-psm 6 -oem 1 -hocr'似乎都不同。第一个似乎无法正常工作。

pytessarect / Tessarect行的行输出

1 个答案: