基于Python的文档元数据解析器?

时间:2010-02-10 18:47:46

标签: python parsing

有没有人知道在python中为类似unix的系统提供文档元数据的良好解析器。在Java中,apache tika很棒。

没有...请:)

由于

4 个答案:

答案 0 :(得分:3)

您不必使用Jython来使用Tika。您可以使用JCC从Python调用Java。你可以找到这个here的体面说明。

安装JCC时,您必须使用两个提供的setuptools补丁之一,因此它可以构建共享对象。 c7版本在Ubuntu 10.04上为我工作。

另一种选择是使用python子进程模块来调用和捕获Tika的标准输出。

答案 1 :(得分:1)

如果您喜欢tika,可以随时使用Jython,以便直接引用tika。

答案 2 :(得分:1)

Tika似乎是一个很好的选择。它是我发现的唯一工具(除了服务器模式下的OpenOffice),它支持旧式XLS文件。我已经完成了一些工作,可以更轻松地将Tika集成到Python项目中,您可以在this blog post中找到它。

答案 3 :(得分:0)

hach​​oir_metadata与excel文档配合得很好 http://bitbucket.org/haypo/hachoir/wiki/Home