Apache Tika Extract附件可以吗?

时间:2013-07-23 11:33:17

标签: java apache-tika

我正在使用Apache Tika从各种文档格式中提取文本。我想从这些文件中提取图像(通常是PDF或Word)。

我使用TikaCLI作为-z(--extract)选项的概念证明,但它从不提取任何附件。 TikaCLI的帮助屏幕和一些网站建议这应该有效。我得不到Tika的输出:

C:\work>Setup.CIPDev-6-3-0-2583\java\bin\java.exe -jar Setup.CIPDev-6-3-0-2583\tomcat\webapps\JavaBridge\WEB-INF\lib\tika-app-1.3.jar -z attachment.pdf

我尝试了各种参数,文件和附件组合但没有成功。有没有人用Apache Tika成功从文件中提取附件?如果是这样,你能否就如何做到这一点提供一些指导?

非常感谢任何帮助。

0 个答案:

没有答案