Java正则表达式提取跨多行的文本序列

时间:2016-12-20 23:44:52

标签: java regex text sequence

给出

之类的文字摘录
Preface (optional, up to multiple lines)
Main : sequence1
   sequence2
   sequence3
   sequence4
Epilogue (optional, up to multiple lines)

哪个Java正则表达式可用于提取所有序列(例如上面的sequence1sequence2sequence3sequence4?例如,Matcher.find()循环?

每个"序列"前面有,也可能包含0个或多个空格(包括制表符)。

以下正则表达式

(?m).*Main(?:[ |t]+:(?:[ |t]+(\S+)[\r\n])+

仅产生第一个序列(sequence1)。

1 个答案:

答案 0 :(得分:3)

您可以使用以下regex

(?m)(?:\G(?!\A)[^\S\r\n]+|^Main\s*:\s*)(\S+)\r?\n?

<强>详情:

  • (?m) -
  • 上的多线模式
  • (?:\G(?!\A)[^\S\r\n]+|^Main\s*:\s*) - 两者中的任何一个:
    • \G(?!\A)[^\S\r\n]+ - 上一次成功匹配(\G(?!\A))结束,然后1 +个水平空格([^\S\r\n]+)可以替换为[\p{Zs}\t]+[\s&&[^\r\n]]+
    • | - 或
    • ^Main\s*:\s* - 开始一行,Main,0 +空格,:,0 +空格
  • (\S+) - 第1组捕获1个非空白符号
  • \r?\n? - 可选的CR和可选的LF。

请参阅下面的Java代码:

String p = "(?m)(?:\\G(?!\\A)[^\\S\r\n]+|^Main\\s*:\\s*)(\\S+)\r?\n?";
String s = "Preface (optional, up to multiple lines)...\nMain : sequence1\n   sequence2\n   sequence3\n   sequence4\nEpilogue (optional, up to multiple lines)";
Matcher m = Pattern.compile(p).matcher(s);
while(m.find()) {
    System.out.println(m.group(1));
}