Apache Tika不会在PDF文档中嵌入图像

时间:2014-08-14 14:54:06

标签: apache apache-tika

我刚发现嵌入图片的PDF文档存在问题。

这样做的:

java -jar tika-app-1.5.jar --extract tika.pdf

Tika无法找到图像。

这是PDF相关问题吗?因为如果我使用DOC文档执行相同的操作,Tika会正确找到图像。

提前谢谢!

1 个答案:

答案 0 :(得分:1)

您需要升级Apache Tika的版本。 1.5版本发布后,通过TIKA-1268添加了支持,这就是为什么你不能使用Tika 1.5获得支持。

Apache Tika即将发布,当发布时,您将能够从PDF中提取图像而无需使用它。

同时,您可以build Tika from source yourself或抓住nightly build。对于生产用途,您最好等待几天1.6,测试您应该可以使用Trunk的每晚构建/构建(如果测试通过了!)