我正在使用Word的sections术语来使每个页面具有不同的页眉,在这里我用{page1}
之类的标记标记页面。
使用python-docx
,我可以通过以下方式获得部分内容:
doc = Document(my_file)`
doc_sections = doc.sections
doc_page_one = doc_sections[0]
我能够获得每个页面及其文本的页眉和页脚:
doc_page_one.header.paragraphs[0].text
但是我没有看到实际的页面内容/正文或形状,而在调试时却找不到它们的住处。
python-docx
有这种可能性吗?
答案 0 :(得分:1)
目前,python-docx
不具有API支持,无法获得我想像的是某个部分中“包含”的“块项目”(段落+表)。
如果您希望底层XML足够糟糕,则必须对其进行导航,可能始于document.__body
。您可以通过以下方式了解一下:
print(document.__body.xml)
基本上,您会寻找w:sectPr
个元素,每个元素结尾都是一个小节。 python-docx
分析页面中包含有关XML模式的更多详细信息:https://python-docx.readthedocs.io/en/latest/dev/analysis/features/sections.html