Question

我有一个word文档（.docx文件），包含10页，每页有1个段落，每个页面/段落由分页符分隔。我想阅读docx文件中的文本并将其与分页符分开。

我能够使用python-docx库读取文本，但我不知道如何使用分页符拆分它。我可以看到一个类似的问题，但它的解决方案是使用旧的python-docx库提出的。

这是从docx文件中读取文本的代码：

from docx import Document

paratextlist = Document("ex.docx")
docText = '\n'.join([
    paragraph.text for paragraph in paratextlist.paragraphs
])

Answer 1

我可以使用正则表达式来搜索表格填充字符\ f。

import re

pattern = re.compile(r"\f")
matches = pattern.finditer(text)
for match in matches:
    print(f"Page break occurs at character {match.span()[0]}")

如果'text'是您的文档字符串，则将返回字符串中每个分页符的位置。然后，您可以使用这些索引对其进行分解。

这可能可以使用Document对象进行调整，但是我不是100％知道如何使用。

如何使用python3 docx拆分带有分页符的docx文件中读取的文本

1 个答案: