我正在尝试使用apache tika将pdf文件转换为文本文件。
我正在使用以下代码
Object
但是当我在命令promt中运行此代码时,我收到此错误。
'卷曲'不被认为是内部或外部命令,可操作 程序或批处理文件。
我已经设置了java环境变量。
这可能听起来像是重复的问题,但我尝试用谷歌搜索其他链接,我无法解决它。我是这个工具的初学者。所以,如果它听起来像重复,我道歉。
修改
我试过这个
curl file:////home/C:\Apache\list costs closed.pdf | java -jar tika-app-1.6.jar --text --encoding=US-ASCII | xargs -0 > list costs closedText
我收到错误
线程中的异常" main" java.net.MalformedURLException:未知 协议:c 在java.net.URL。(未知来源) 在java.net.URL。(未知来源) 在java.net.URL。(未知来源) 在org.apache.tika.cli.TikaCLI.process(TikaCLI.java:417) 在org.apache.tika.cli.TikaCLI.main(TikaCLI.java:113)
答案 0 :(得分:0)
对于第一个问题,首先必须安装curl。跟随this博客。
第二个问题:必须给路径加引号。例如 java -jar“ C:\ Apache \ tika-app-1.6.jar” --text“ C:\ Apache \ list费用已关闭。pdf”
您也可以在计算机上创建本地tika服务器,并传递其地址,这样就不必每次使用tika时都加载jar文件。 可以使用以下命令在cmd中启动服务器:java -jar“ C:\ Apache \ tika-server-VERSION.jar” -s 您可以通过以下方法验证本地服务器:http://localhost:9998/
一旦确认服务器正在运行,就可以在新的命令窗口中使用以下命令。 curl -T“输入文件路径” http://localhost:9998/tika
如评论中所指出,Tika 1.20现在可用。