我有一个word文档(.docx文件),包含10页,每页有1个段落,每个页面/段落由分页符分隔。我想阅读docx文件中的文本并将其与分页符分开。
我能够使用python-docx库读取文本,但我不知道如何使用分页符拆分它。我可以看到一个类似的问题,但它的解决方案是使用旧的python-docx库提出的。
这是从docx文件中读取文本的代码:
from docx import Document
paratextlist = Document("ex.docx")
docText = '\n'.join([
paragraph.text for paragraph in paratextlist.paragraphs
])
答案 0 :(得分:0)
我可以使用正则表达式来搜索表格填充字符\ f。
import re
pattern = re.compile(r"\f")
matches = pattern.finditer(text)
for match in matches:
print(f"Page break occurs at character {match.span()[0]}")
如果'text'是您的文档字符串,则将返回字符串中每个分页符的位置。然后,您可以使用这些索引对其进行分解。
这可能可以使用Document对象进行调整,但是我不是100%知道如何使用。