我有一个包含32个文档的文本文件,我希望Python能够注意到它。因此,我正在搜索一个标记化过程,以检测新文档的开始和结束时间。
正如我们在图像中看到的,每个文档都以组合开头:32个文档的数量。在图像中我只是展示了第二份文件的石南花。下一个文档将从32个文档中的3个开始,依此类推。任何人都可以帮我开发一个简单的代码,以便Python认识到有32篇文章吗?
答案 0 :(得分:2)
解决此问题的一种方法:
X of Y documents
匹配。所以,例如:
import re
sections = []
current = []
with open("myfile.txt") as f:
for line in f:
if re.search(r"(?i)\d+ of \d+ documents", line):
sections.append("".join(current))
current = [line]
else:
current.append(line)
if current:
sections.append("".join(current))