标签: python xml parsing ms-word docx
我有一份大约900页的大量docx文档,超过2000个脚注...我想创建一个所有脚注的列表(可能还有一些与它们相关的元信息,如字体大小,样式,编号) 。我知道一点python并且可以使用XML但不知道从哪里开始...
简而言之,您如何解析docx文档以提取脚注?我应该先用XML转换它吗?如果是,我如何解析XML文档?
答案 0 :(得分:2)
如果你解压缩你的docx,你会发现它包含一个word/footnotes.xml文件,其中包含脚注。
word/footnotes.xml