答案 0 :(得分:3)
您不必使用Jython来使用Tika。您可以使用JCC从Python调用Java。你可以找到这个here的体面说明。
安装JCC时,您必须使用两个提供的setuptools补丁之一,因此它可以构建共享对象。 c7版本在Ubuntu 10.04上为我工作。
另一种选择是使用python子进程模块来调用和捕获Tika的标准输出。
答案 1 :(得分:1)
如果您喜欢tika,可以随时使用Jython,以便直接引用tika。
答案 2 :(得分:1)
Tika似乎是一个很好的选择。它是我发现的唯一工具(除了服务器模式下的OpenOffice),它支持旧式XLS文件。我已经完成了一些工作,可以更轻松地将Tika集成到Python项目中,您可以在this blog post中找到它。
答案 3 :(得分:0)
hachoir_metadata与excel文档配合得很好 http://bitbucket.org/haypo/hachoir/wiki/Home