我正在尝试在Windows 7中使用pypdfocr
和Python 2.7。
这是我在pypdfocr
中尝试cmd
时收到的错误消息:
C:\ Users \ chamar.stu> pypdfocr F:\ test2.pdf开始转换 F:\ test2.pdf' pdfimages'不被视为内部或外部 命令,可操作程序或批处理文件。警告:无法执行 pdfimages来计算DPI(尝试安装xpdf或po ppler?),所以 默认为300dpi Traceback(最近一次调用最后一次):文件 " C:\用户\ chamar.stu \应用程序数据\本地\连续\ anaconda2 \ lib中\ runpy.py&#34 ;, 第174行,在_run_module_as_main ...... .... ....
pypdfocr \ pypdfocr_tesseract.py",第98行,在_is_version_uptodate中 ver = [int(x)for x in ver_str.split('。')] ValueError:int()的基数为10的无效文字:' 00alpha'
我似乎错过了Poppler
或XPDF
,但我确实按照建议PyGoObject通过here安装了Poppler。我还按照建议here在我的环境路径中链接了xpdf
。
有什么建议让我摆脱这个小混乱?
答案 0 :(得分:1)
pypdfocr
脚本可能使用pdfimages
模块调用subprocess
程序(其中一个poppler 实用程序,而不是库)。
我无法轻易辨别出您提及的URI中是否提供了实用程序。
如果没有,您可以找到实用程序的预构建的ms-windows可执行文件,例如here
确保安装poppler实用程序的位置位于PATH
,以便pypdfocr
可以找到它。
答案 1 :(得分:0)
尝试将Tesseract从4.0.0-beta.1版本(我的情况)降级到名称中不包含字母数字的3.x版本。
tesseract --version
#检查
pypdfocr软件包中内置的版本检查期望版本号为整数,因此'00alpha'
(在我的情况下为'0-beta'
)上出错