Matcher.group和正则表达式不提取完整的正则表达式

时间:2013-11-04 18:16:20

标签: java regex string matcher

我有String

String s = "adfgadfbfgadg sa 2419sfgh";

我正在尝试提取子字符串

String substring = "sa 2419sfgh"; 

使用Pattern和Matcher使用以下正则表达式和代码。

formNumberRegex = "[al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f]?[\\s\\-\\.]*[\\d]{3,6}[\\s\\-\\.]*[\\w]{1,4}";
formNumberRegexPattern = Pattern.compile(formNumberRegex);
formNumberMatcher = formNumberRegexPattern.matcher(s);

if (formNumberMatcher.find()) {
    String substring = formNumberMatcher.group();
}

然而,我只是

substring = "a 2419sfgh";

我的正则表达式和/或匹配器有什么问题?

2 个答案:

答案 0 :(得分:3)

我立即注意到:

[al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f]?

应该是:

(?:al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f)?

“非捕获组”(?:),可以避免将第一部分捕获为初始组。这样,整个表达式就是“匹配组0”,就是它。

在这里测试:http://regex101.com/r/lS9dT2

答案 1 :(得分:1)

您正在使用character class [...]

[al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f]

而不是group

(al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f)

您使用的内容可以写成

(\\||a|l|s|f|s|a|s|c|n|r|c|n|r|c| |f|o|r|m|d|o|e|d|o|e| |f|l|s|i|d|o|e| |f|o|r|m| |p|s|d| |f|||d|o|e| |a|l| |f)

因此,由于字符类只匹配[...]内使用的所有字符,因此它会接受|als ...等等,虽然更正后的版本只接受由alsf之类的OR分隔的案例之一,依此类推。

所以将你的正则表达式改为

String formNumberRegex = "(al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f)?[\\s\\-\\.]*[\\d]{3,6}[\\s\\-\\.]*[\\w]{1,4}";