哪些Python库可用于分析doc和docx文件?

时间:2019-01-27 10:37:35

标签: python docx doc

我正在编写doc和docx解析器。有必要获取有关这些格式文档的各种元数据。例如,对于docx,我需要获取XML代码并继续使用标记。告诉我可以帮助解决我的问题的解决方案吗?像python-docx这样的解决方案不适合,因为它们仅适用于文本。

1 个答案:

答案 0 :(得分:1)

如果您需要原始的docx数据,则可以使用低级数据,即使用zipfile打开文件并使用xml etree读取元数据