在正则表达式中,或者,当有多个具有公共前缀的输入时,正则表达式将匹配Regex OR
中的第一个输入,而不是最长的匹配。
例如,对于正则表达式regex = (KA|KARNATAKA)
和input = KARNATAKA
,输出将为2个匹配项match1 =KA
和match2 = KA
。
但是我想要的是与Regex OR
中给定输入(在给定示例中为match1 = KARNATAKA
)中的最长可能的完全匹配。
Here is the example in a regex client
所以我现在正在做的是,我正在按Regex OR
的长度按降序对输入进行排序。
我的问题是,我们可以在正则表达式本身中指定以匹配最长的String吗?还是排序是唯一的方法?
I have already refered this question and I don't see a solution other than sorting
答案 0 :(得分:1)
答案 1 :(得分:0)
您可以为此创建一个辅助方法:
public final class PatternHelper {
public static Pattern compileSortedOr(String regex) {
Matcher matcher = Pattern.compile("(.*)\\((.*\\|.*)\\)(.*)").matcher(regex);
if (matcher.matches()) {
List<String> conditions = Arrays.asList(matcher.group(2).split("\\|"));
List<String> sortedConditions = conditions.stream()
.sorted((c1, c2) -> c2.length() - c1.length())
.collect(Collectors.toList());
return Pattern.compile(matcher.group(1) +
"(" +
String.join("|", sortedConditions) +
")" +
matcher.group(3));
}
return Pattern.compile(regex);
}
}
Matcher matcher = PatternHelper.compileSortedOr("(KA|KARNATAKA)").matcher("KARNATAKA");
if (matcher.matches()) {
System.out.println(matcher.group(1));
}
输出:
KARNATAKA
P.S。这仅适用于没有嵌套括号的简单表达式。如果您期望复杂的表达式,则需要进行调整。