我正在使用python尝试读取txt文件并在字符串之间提取多个文本块。这是一个示例:
something something something I dont want
Select and then any length and joins etc of text that I want which could be multiple lines
: this semicolon is the end of what I want
something something something I dont want again
Select and then any length and joins etc of text that I want which could be multiple lines
: this semicolon is the end of what I want
选择是我要开始提取数据的位置;是我要停止的地方
这将在整个900页的文档中重复进行。
有什么建议吗?
答案 0 :(得分:0)
我不太确定为什么不使用正则表达式(因为它可以解决问题)。
您要查找的正则表达式为:Select ((?:.*\n)+?):
基本上是“选择”,捕获所有内容,直到换行符和冒号,“冒号”为止。
只需将其与re.finditer
或re.findall
一起使用,便会被设置。 Test in regex101。