我有大量无法进行OCR的PDF,因为它们每个都有一个小的可渲染文本字段。
我正在尝试将它们全部转换为TIFF,以便可以转换回并运行OCR,但是在调用希望完成此功能的程序时遇到了问题。我安装了它们没有问题,但是由于某种原因,我不断收到错误消息,指出相关的命令不存在:
c:\Program Files\Python37\Lib\site-packages>pip install tesseract
Requirement already satisfied: tesseract in c:\program files\python37\lib\site-packages (0.1.3)
c:\Program Files\Python37\Lib\site-packages>tesseract --version
'tesseract' is not recognized as an internal or external command,
operable program or batch file.
c:\Program Files\Python37\Lib\site-packages>pip install ghostscript
Requirement already satisfied: ghostscript in c:\program files\python37\lib\site-packages (0.6)
Requirement already satisfied: setuptools in c:\program files\python37\lib\site-packages (from ghostscript) (40.8.0)
c:\Program Files\Python37\Lib\site-packages>gs --version
'gs' is not recognized as an internal or external command,
operable program or batch file.
c:\Program Files\Python37\Lib\site-packages>gswin32c --version
'gswin32c' is not recognized as an internal or external command,
operable program or batch file.
有什么想法我在做什么错吗?
如果您有更好的方法来执行总体任务,则奖励积分。
答案 0 :(得分:0)
我注意到您正在使用Windows,我猜您没有将Ghostscript安装目录添加到$ PATH环境变量中,因此Windows不知道在哪里可以找到可执行文件。
也许 Python 可以使用python37 \ lib \ site-packages目录中的Ghostscript可执行文件,但是Windows不会知道这一点,除非告诉它在那儿。除非Python软件包安装程序使用的不是正常的Ghostscript Windows安装程序,否则它可能是子目录。
请注意,在Windows上,二进制文件不称为“ gs”;它将是gswin32,gswin64,gswin32c或gswin64c,具体取决于您是否安装了32位或64位版本的Ghostscript,以及是否需要命令行(c)或窗口版本。
找到它的最简单方法可能是在指定的Python文件夹中查找并查看。