提取两个字符串之间的文本块,在整个文档中重复该过程

时间:2018-10-03 18:36:45

标签: python loops text extract

我正在使用python尝试读取txt文件并在字符串之间提取多个文本块。这是一个示例:

something something something I dont want
Select and then any length and joins etc of text that I want which could be  multiple lines
: this semicolon is the end of what I want
something something something I dont want again
   Select and then any length and joins etc of text that I want which could be  multiple lines
: this semicolon is the end of what I want

选择是我要开始提取数据的位置;是我要停止的地方

这将在整个900页的文档中重复进行。

有什么建议吗?

1 个答案:

答案 0 :(得分:0)

我不太确定为什么不使用正则表达式(因为它可以解决问题)。

您要查找的正则表达式为:Select ((?:.*\n)+?):

基本上是“选择”,捕获所有内容,直到换行符和冒号,“冒号”为止。

只需将其与re.finditerre.findall一起使用,便会被设置。 Test in regex101