我有String
String s = "adfgadfbfgadg sa 2419sfgh";
我正在尝试提取子字符串
String substring = "sa 2419sfgh";
使用Pattern和Matcher使用以下正则表达式和代码。
formNumberRegex = "[al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f]?[\\s\\-\\.]*[\\d]{3,6}[\\s\\-\\.]*[\\w]{1,4}";
formNumberRegexPattern = Pattern.compile(formNumberRegex);
formNumberMatcher = formNumberRegexPattern.matcher(s);
if (formNumberMatcher.find()) {
String substring = formNumberMatcher.group();
}
然而,我只是
substring = "a 2419sfgh";
我的正则表达式和/或匹配器有什么问题?
答案 0 :(得分:3)
我立即注意到:
[al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f]?
应该是:
(?:al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f)?
“非捕获组”(?:),可以避免将第一部分捕获为初始组。这样,整个表达式就是“匹配组0”,就是它。
答案 1 :(得分:1)
您正在使用character class [...]
[al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f]
而不是group
(al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f)
您使用的内容可以写成
(\\||a|l|s|f|s|a|s|c|n|r|c|n|r|c| |f|o|r|m|d|o|e|d|o|e| |f|l|s|i|d|o|e| |f|o|r|m| |p|s|d| |f|||d|o|e| |a|l| |f)
因此,由于字符类只匹配[...]
内使用的所有字符,因此它会接受|
或a
或l
或s
...等等,虽然更正后的版本只接受由al
或sf
之类的OR分隔的案例之一,依此类推。
所以将你的正则表达式改为
String formNumberRegex = "(al|sf|sa|sc|nrc|nrc form|doe|doe f|lsi|doe form psd f|doe al f)?[\\s\\-\\.]*[\\d]{3,6}[\\s\\-\\.]*[\\w]{1,4}";