编辑:在尝试使用群组之前,请确保您调用匹配#匹配或匹配#find! Source
我尝试做一些非常简单的事情 - 我试图从一个单词开头的行中获取文本。在这种情况下,单词是Location:
。我正在阅读原始HTML,因此感兴趣的行实际上是这样的:
Location: Main Hall
显然,我希望Main Hall
返回给我,以便我可以阅读申请的位置。
这是我尝试过的:
String t_location = "";
Pattern t_pat = Pattern.compile("^[\\s]+?(?s)Location: (?-s)(.*)$");
Matcher t_match = t_pat.matcher(t_inner_html);
t_location = t_match.group(0);
但我一直收到错误:
java.lang.IllegalStateException: No successful match so far
打破我的正则表达式,这就是(我认为)我正在做的事情:
^
- 从该行的开头读取
[\\s]+?
- 使用不情愿的限定符,读取行开头的空格,直到我们点击其他内容
(?s)Location: (?-s)
- 文字字符串"位置:"正在阅读
(.*)$
- 读取字符(换行符除外)直到行尾
这就是我认为我正在做的事情。我在Regex上并不擅长,但我试图按照文档无效。有人可以帮助我吗?
例如,字符串t_inner_html
如下所示:
8/28/2014
Alumni Reunion
Location: Main Hall
<span class="extra-info">
Blah blah blah....
</span>
答案 0 :(得分:1)
如果这不是Java,那么这个正则表达式应该可行,具体取决于你的行尾(EOL)字符序列:
(.|\n)*Location:\s*(.*)\n
您想要的字符串位于组索引1
。
既然这个正则表达式将在Java String
中,并且由于反斜杠是Java字符串中的转义字符,实际上你必须用双反斜杠污染纯正则表达式:
Pattern t_pat = Pattern.compile("(.|\\n)*Location:\\s*(.*)\\n");
一般来说,为了测试正则表达式,我真的很喜欢这个工具:
它是一个交互式测试程序,可以在与正则表达式匹配时逐步突出显示您的示例输入。编辑正则表达式或更改示例输入时,匹配的突出显示将实时更新。这不支持Java所需的双反斜杠,因此在工具中测试单个,将它们粘贴到Java,然后添加额外的反斜杠。
您可能还想使用此工具,这不是实时但支持Java String
正则表达式:
http://www.regexplanet.com/advanced/java/index.html
打破我所拥有的:
(.|\n)*
- 零个或多个字符或EOL序列
Location:
- 字符串&#34;位置:&#34;
\s*
- 零个或多个空格
(.*)
- 一个由绝对任何东西组成的正则表达式组,这是你将要捕获的东西
\n
- EOL序列
如果您使用的话,可能需要将\n
替换为\r\n
,但请先尝试\n
并查看。
这将通过&#34; Main Hall&#34;匹配样本输入中的所有内容,并忽略(<span . . .>
等)&#34; Main Hall&#34;之后的所有内容。最终会出现在匹配组1
中。
答案 1 :(得分:1)
请尝试以下方法:
String t_location = "";
Pattern t_pat = Pattern.compile("^\\s+Location:\\s+(.*)$", Pattern.MULTILINE);
Matcher t_match = t_pat.matcher(t_inner_html);
if (t_match.find()) {
t_location = t_match.group(1);
}
你需要使用Pattern.MULTILINE表达式^和$来匹配每一行而不是整个字符串。
答案 2 :(得分:0)
首先使用String indexOf Method查找行是否包含“Location:”。 然后使用str.replace(“Location:”,“”);在有“位置:”的行上。
答案 3 :(得分:0)