我已经在windows xp sp3 desktop中安装了tesseract OCR引擎。我现在正试图从命令提示符运行引擎,如https://code.google.com/p/tesseract-ocr/wiki/ReadMe所述
他们给出的命令是 tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile ...]
tesseract myscan.png out
我正在尝试读取名为CSE_Curriculum的文件,因此我的命令看起来像这样
tesseract CSE_Curriculum.pdf out
但它给了我以下错误
无法打开文件:CSE_Curriculum.pdf
我的安装程序包含列车数据,那么问题是什么?什么应该是适当的命令行以及我应该把文件放在哪里。我已经测试过将它保存在文档,桌面以及文档和设置中。
答案 0 :(得分:0)
Tesseract不支持开箱即用的阅读PDF。您需要先将其转换为支持的图像格式。