如何检测文档中的图像,例如doc,xls,ppt或pdf?
我遇到了Apache Tika,我正在尝试命令行选项。 http://tika.apache.org/1.2/gettingstarted.html
我正在使用Python2.7 ..
但不太确定如何检测图像。
我是Django的新手,感谢任何帮助。
由于
答案 0 :(得分:0)
这个线程已经老了,我正在恢复它,因为现在有各种解决方案可以解决这个问题。 tika的开发人员之一Chris Mathamm已经为tika进行了python集成,它使用JCC库的c ++绑定来访问jvm和运行tika。你可以找到here。
还有一个Apache Tika integration for Plone using portal transforms.使用tika-jaxrs服务器来解析文档。