Python 2.7:在Windows 7中使用pypdfocr时遇到困难

时间:2017-03-17 08:24:36

标签: python ocr pypdf

我正在尝试在Windows 7中使用pypdfocr和Python 2.7。

这是我在pypdfocr中尝试cmd时收到的错误消息:

  

C:\ Users \ chamar.stu> pypdfocr F:\ test2.pdf开始转换   F:\ test2.pdf' pdfimages'不被视为内部或外部   命令,可操作程序或批处理文件。警告:无法执行   pdfimages来计算DPI(尝试安装xpdf或po ppler?),所以   默认为300dpi Traceback(最近一次调用最后一次):文件   " C:\用户\ chamar.stu \应用程序数据\本地\连续\ anaconda2 \ lib中\ runpy.py&#34 ;,   第174行,在_run_module_as_main ...... .... ....

     

pypdfocr \ pypdfocr_tesseract.py",第98行,在_is_version_uptodate中       ver = [int(x)for x in ver_str.split('。')] ValueError:int()的基数为10的无效文字:' 00alpha'

我似乎错过了PopplerXPDF,但我确实按照建议PyGoObject通过here安装了Poppler。我还按照建议here在我的环境路径中链接了xpdf

有什么建议让我摆脱这个小混乱?

2 个答案:

答案 0 :(得分:1)

pypdfocr脚本可能使用pdfimages模块调用subprocess程序(其中一个poppler 实用程序,而不是库)。

我无法轻易辨别出您提及的URI中是否提供了实用程序。

如果没有,您可以找到实用程序的预构建的ms-windows可执行文件,例如here

确保安装poppler实用程序的位置位于PATH,以便pypdfocr可以找到它。

答案 1 :(得分:0)

尝试将Tesseract从4.0.0-beta.1版本(我的情况)降级到名称中不包含字母数字的3.x版本。

tesseract --version#检查

pypdfocr软件包中内置的版本检查期望版本号为整数,因此'00alpha'(在我的情况下为'0-beta')上出错