如何将pdf文件转换为apache tika中的文本

时间:2018-01-16 08:36:28

标签: java pdf apache-tika

我正在尝试使用apache tika将pdf文件转换为文本文件。

我正在使用以下代码

Object

但是当我在命令promt中运行此代码时,我收到此错误。

  

'卷曲'不被认为是内部或外部命令,可操作   程序或批处理文件。

我已经设置了java环境变量。

这可能听起来像是重复的问题,但我尝试用谷歌搜索其他链接,我无法解决它。我是这个工具的初学者。所以,如果它听起来像重复,我道歉。

修改

我试过这个

curl file:////home/C:\Apache\list costs closed.pdf | java -jar  tika-app-1.6.jar --text --encoding=US-ASCII | xargs -0 >  list costs closedText

我收到错误

  

线程中的异常" main" java.net.MalformedURLException:未知   协议:c           在java.net.URL。(未知来源)           在java.net.URL。(未知来源)           在java.net.URL。(未知来源)           在org.apache.tika.cli.TikaCLI.process(TikaCLI.java:417)           在org.apache.tika.cli.TikaCLI.main(TikaCLI.java:113)

1 个答案:

答案 0 :(得分:0)

对于第一个问题,首先必须安装curl。跟随this博客。

第二个问题:必须给路径加引号。例如 java -jar“ C:\ Apache \ tika-app-1.6.jar” --text“ C:\ Apache \ list费用已关闭。pdf”

您也可以在计算机上创建本地tika服务器,并传递其地址,这样就不必每次使用tika时都加载jar文件。 可以使用以下命令在cmd中启动服务器:java -jar“ C:\ Apache \ tika-server-VERSION.jar” -s 您可以通过以下方法验证本地服务器:http://localhost:9998/

一旦确认服务器正在运行,就可以在新的命令窗口中使用以下命令。 curl -T“输入文件路径” http://localhost:9998/tika

如评论中所指出,Tika 1.20现在可用。