如何使用python3 docx拆分带有分页符的docx文件中读取的文本

时间:2018-04-09 16:54:00

标签: python python-3.x python-docx

我有一个word文档(.docx文件),包含10页,每页有1个段落,每个页面/段落由分页符分隔。我想阅读docx文件中的文本并将其与分页符分开。

我能够使用python-docx库读取文本,但我不知道如何使用分页符拆分它。我可以看到一个类似的问题,但它的解决方案是使用旧的python-docx库提出的。

这是从docx文件中读取文本的代码:

from docx import Document

paratextlist = Document("ex.docx")
docText = '\n'.join([
    paragraph.text for paragraph in paratextlist.paragraphs
])

1 个答案:

答案 0 :(得分:0)

我可以使用正则表达式来搜索表格填充字符\ f。

import re

pattern = re.compile(r"\f")
matches = pattern.finditer(text)
for match in matches:
    print(f"Page break occurs at character {match.span()[0]}")

如果'text'是您的文档字符串,则将返回字符串中每个分页符的位置。然后,您可以使用这些索引对其进行分解。

这可能可以使用Document对象进行调整,但是我不是100%知道如何使用。