pytesseract结果与tesseract命令行结果不同

时间:2017-12-27 17:04:32

标签: tesseract python-tesseract pytesser

我正在尝试使用Ubuntu上的pytesseract和tesseract命令行将扫描页面转换为文本。结果是非常不同的(pytesseract执行方式比tesseract命令行更好),我无法理解为什么。我查看了参数的默认值,并尝试更改tesseract命令行中的一些参数值(如psm),但我无法获得与pytesseract相同的结果。由于pytesseract缺乏适当的文档,我无法弄清楚参数的默认值是什么。

这是我的pytesseract代码       print(pytesseract.image_to_string(Image.open('test.tiff'))

1 个答案:

答案 0 :(得分:0)

查看pytesseract的源代码,似乎图像总是转换为.bmp文件。 在Tesseract的命令行中使用.bmp文件和psm为6会得到与pytesseract相同的结果。 此外,tesseract只能使用未压缩的bmp文件。因此,如果使用ImageMagick将.pdf转换为.bmp,则以下内容将起作用

convert -density 300 -quality 100 mypdf.pdf BMP3:mypdf.bmp
tesseract mypdf.bmp -psm 6 mypdf txt