python-docx如何获取部分的内容/正文

时间:2019-05-09 07:31:16

标签: python file docx python-docx

我正在使用Word的sections术语来使每个页面具有不同的页眉,在这里我用{page1}之类的标记标记页面。

使用python-docx,我可以通过以下方式获得部分内容:

doc = Document(my_file)`
doc_sections = doc.sections
doc_page_one = doc_sections[0]

我能够获得每个页面及其文本的页眉和页脚: doc_page_one.header.paragraphs[0].text

但是我没有看到实际的页面内容/正文或形状,而在调试时却找不到它们的住处。

python-docx有这种可能性吗?

1 个答案:

答案 0 :(得分:1)

目前,python-docx不具有API支持,无法获得我想像的是某个部分中“包含”的“块项目”(段落+表)。

如果您希望底层XML足够糟糕,则必须对其进行导航,可能始于document.__body。您可以通过以下方式了解一下:

print(document.__body.xml)

基本上,您会寻找w:sectPr个元素,每个元素结尾都是一个小节。 python-docx分析页面中包含有关XML模式的更多详细信息:https://python-docx.readthedocs.io/en/latest/dev/analysis/features/sections.html