python检测文档中的图像

时间:2013-01-22 10:12:09

标签: python apache-tika

如何检测文档中的图像,例如doc,xls,ppt或pdf?

我遇到了Apache Tika,我正在尝试命令行选项。 http://tika.apache.org/1.2/gettingstarted.html

我正在使用Python2.7 ..

但不太确定如何检测图像。

我是Django的新手,感谢任何帮助。

由于

1 个答案:

答案 0 :(得分:0)

这个线程已经老了,我正在恢复它,因为现在有各种解决方案可以解决这个问题。 tika的开发人员之一Chris Mathamm已经为tika进行了python集成,它使用JCC库的c ++绑定来访问jvm和运行tika。你可以找到here

还有一个Apache Tika integration for Plone using portal transforms.使用tika-jaxrs服务器来解析文档。