Question

我有这个字符串

string = "line\nline\nline\nline\nline\nline\nDocument AAA123\nline\nline\nline\nline\nline\nDocument AAA124\n"

我要解析为列表：

result = ["line\nline\nline\nline\nline\nline\nDocument AAA123","\nline\nline\nline\nline\nline\nDocument AAA124"]

因此提取字符串直至并包括文档ID。我尝试使用Look-behind

的策略

l = re.split(r"(?<=\\nDocument)(\b\w\b)", string)

但结果我获得了长度为1的列表。我应该这样做吗？

Answer 1

而不是拆分，使用此模式捕获您想要的内容

([\s\S]+?Document.+)

或在您的情况下([\s\S]+?\\nDocument.+)