如何使用python-docx识别新页面或表示页码的标识符?到目前为止,我查看了文档无效,并且还尝试查找WD_BREAK.PAGE属性,但此功能尚不支持。感谢所有帮助。
答案 0 :(得分:3)
简短的回答是,您无法从.docx文件中可靠地确定软分页符。您可以识别硬分页符,并且可以能够检测到Word在上次流动时打破页面的位置"文件。
Word文档是"流动的"文档,意味着Word的布局引擎"流动"将文档的文本放入页面直到它用完房间,然后创建一个新页面,其中流动剩余的文本。这些"软" .docx文件中未指定分页符;它们在渲染时由Word确定,用于显示或打印。这是有道理的,因为无论何时更改边距,页面都可能在不同位置中断。
这意味着.docx文件不包含标识以下文本应该流到新页面的位置。
硬分页符是文档作者明确插入的硬分页符,用于使后续内容流向新页面,而不考虑当前页面是否已满。这些是在我认为的运行中使用break元素实现的,并且可以被检测到。
作为辅助技术的辅助工具,如视障人士的语音阅读器,Word可以插入<w:lastRenderedPageBreak>
元素。我不太了解这些以及Word在什么情况下插入这些内容,但这可能是一个值得探索的途径。