Regex Look-behind不适用于在文档ID处拆分字符串

时间:2014-11-30 23:35:37

标签: python regex

我有这个字符串

string = "line\nline\nline\nline\nline\nline\nDocument AAA123\nline\nline\nline\nline\nline\nDocument AAA124\n"

我要解析为列表:

result = ["line\nline\nline\nline\nline\nline\nDocument AAA123","\nline\nline\nline\nline\nline\nDocument AAA124"]

因此提取字符串直至并包括文档ID。我尝试使用Look-behind

的策略
l = re.split(r"(?<=\\nDocument)(\b\w\b)", string)

但结果我获得了长度为1的列表。我应该这样做吗?

1 个答案:

答案 0 :(得分:2)

而不是拆分,使用此模式捕获您想要的内容

([\s\S]+?Document.+)  

Demo

或在您的情况下([\s\S]+?\\nDocument.+)