我刚发现嵌入图片的PDF文档存在问题。
这样做的:
java -jar tika-app-1.5.jar --extract tika.pdf
Tika无法找到图像。
这是PDF相关问题吗?因为如果我使用DOC文档执行相同的操作,Tika会正确找到图像。
提前谢谢!
答案 0 :(得分:1)
您需要升级Apache Tika的版本。 1.5版本发布后,通过TIKA-1268添加了支持,这就是为什么你不能使用Tika 1.5获得支持。
Apache Tika即将发布,当发布时,您将能够从PDF中提取图像而无需使用它。
同时,您可以build Tika from source yourself或抓住nightly build。对于生产用途,您最好等待几天1.6,测试您应该可以使用Trunk的每晚构建/构建(如果测试通过了!)