标签: python docx doc
我正在编写doc和docx解析器。有必要获取有关这些格式文档的各种元数据。例如,对于docx,我需要获取XML代码并继续使用标记。告诉我可以帮助解决我的问题的解决方案吗?像python-docx这样的解决方案不适合,因为它们仅适用于文本。
答案 0 :(得分:1)
如果您需要原始的docx数据,则可以使用低级数据,即使用zipfile打开文件并使用xml etree读取元数据
docx
zipfile