在word文档中查找新页面

时间:2014-06-01 13:15:26

标签: xml python-2.7 ms-word python-docx

如何使用python-docx识别新页面或表示页码的标识符?到目前为止,我查看了文档无效,并且还尝试查找WD_BREAK.PAGE属性,但此功能尚不支持。感谢所有帮助。

1 个答案:

答案 0 :(得分:3)

简短的回答是,您无法从.docx文件中可靠地确定软分页符。您可以识别硬分页符,并且可以能够检测到Word在上次流动时打破页面的位置"文件。

Word文档是"流动的"文档,意味着Word的布局引擎"流动"将文档的文本放入页面直到它用完房间,然后创建一个新页面,其中流动剩余的文本。这些"软" .docx文件中未指定分页符;它们在渲染时由Word确定,用于显示或打印。这是有道理的,因为无论何时更改边距,页面都可能在不同位置中断。

这意味着.docx文件不包含标识以下文本应该流到新页面的位置。

硬分页符是文档作者明确插入的硬分页符,用于使后续内容流向新页面,而不考虑当前页面是否已满。这些是在我认为的运行中使用break元素实现的,并且可以被检测到。

作为辅助技术的辅助工具,如视障人士的语音阅读器,Word可以插入<w:lastRenderedPageBreak>元素。我不太了解这些以及Word在什么情况下插入这些内容,但这可能是一个值得探索的途径。