Java Regex - 试图从以某个字符串开头的行中隔离文本?

时间:2014-08-28 04:17:31

标签: java android regex

编辑:在尝试使用群组之前,请确保您调用匹配#匹配或匹配#find! Source


我尝试做一些非常简单的事情 - 我试图从一个单词开头的行中获取文本。在这种情况下,单词是Location:。我正在阅读原始HTML,因此感兴趣的行实际上是这样的:

      Location: Main Hall

显然,我希望Main Hall返回给我,以便我可以阅读申请的位置。

这是我尝试过的:

String t_location = "";
Pattern t_pat = Pattern.compile("^[\\s]+?(?s)Location: (?-s)(.*)$");
Matcher t_match = t_pat.matcher(t_inner_html);
t_location = t_match.group(0);

但我一直收到错误:

java.lang.IllegalStateException: No successful match so far

打破我的正则表达式,这就是(我认为)我正在做的事情:

^ - 从该行的开头读取

[\\s]+? - 使用不情愿的限定符,读取行开头的空格,直到我们点击其他内容

(?s)Location: (?-s) - 文字字符串"位置:"正在阅读

(.*)$ - 读取字符(换行符除外)直到行尾

这就是我认为我正在做的事情。我在Regex上并不擅长,但我试图按照文档无效。有人可以帮助我吗?


例如,字符串t_inner_html如下所示:

8/28/2014
      Alumni Reunion
      Location: Main Hall

      <span class="extra-info">
           Blah blah blah....
      </span>

4 个答案:

答案 0 :(得分:1)

如果这不是Java,那么这个正则表达式应该可行,具体取决于你的行尾(EOL)字符序列:

(.|\n)*Location:\s*(.*)\n

您想要的字符串位于组索引1

既然这个正则表达式将在Java String中,并且由于反斜杠是Java字符串中的转义字符,实际上你必须用双反斜杠污染纯正则表达式:

Pattern t_pat = Pattern.compile("(.|\\n)*Location:\\s*(.*)\\n");

一般来说,为了测试正则表达式,我真的很喜欢这个工具:

http://regexpal.com/

它是一个交互式测试程序,可以在与正则表达式匹配时逐步突出显示您的示例输入。编辑正则表达式或更改示例输入时,匹配的突出显示将实时更新。这不支持Java所需的双反斜杠,因此在工具中测试单个,将它们粘贴到Java,然后添加额外的反斜杠。

您可能还想使用此工具,这不是实时但支持Java String正则表达式:

http://www.regexplanet.com/advanced/java/index.html

打破我所拥有的:

(.|\n)* - 零个或多个字符或EOL序列

Location: - 字符串&#34;位置:&#34;

\s* - 零个或多个空格

(.*) - 一个由绝对任何东西组成的正则表达式组,这是你将要捕获的东西

\n - EOL序列

如果您使用的话,可能需要将\n替换为\r\n,但请先尝试\n并查看。

这将通过&#34; Main Hall&#34;匹配样本输入中的所有内容,并忽略(<span . . .>等)&#34; Main Hall&#34;之后的所有内容。最终会出现在匹配组1中。

答案 1 :(得分:1)

请尝试以下方法:

    String t_location = "";
    Pattern t_pat = Pattern.compile("^\\s+Location:\\s+(.*)$", Pattern.MULTILINE);
    Matcher t_match = t_pat.matcher(t_inner_html);
    if (t_match.find()) {
       t_location = t_match.group(1);
    }

你需要使用Pattern.MULTILINE表达式^和$来匹配每一行而不是整个字符串。


Java Fiddle Demo

答案 2 :(得分:0)

首先使用String indexOf Method查找行是否包含“Location:”。 然后使用str.replace(“Location:”,“”);在有“位置:”的行上。

答案 3 :(得分:0)

 .*?Location:(.*?)\n

这可以让你得到你想要的东西。

参见演示。

http://regex101.com/r/rJ1oQ3/1