我正在尝试使用带有Scanner的正则表达式来匹配文件中的字符串。正则表达式适用于该行以外的所有内容:
DNA="ITTTAITATIATYAAAYIYI[....]ITYTYITTIYAIAIYIT"
在实际文件中,省略号代表数千个字符。
当读取文件的循环到达包含基数的行时,会发生堆栈溢出错误。
这是循环:
while (scanFile.hasNextLine()) {
final String currentLine = scanFile.findInLine(".*");
System.out.println("trying to match '" + currentLine + "'");
Scanner internalScanner = new Scanner(currentLine);
String matchResult = internalScanner.findInLine(Constants.ANIMAL_INFO_REGEX);
assert matchResult != null : "there's no reason not to find a match";
matches.put(internalScanner.match().group(1), internalScanner.match().group(2));
scanFile.nextLine();
}
和正则表达式:
static final String ANIMAL_INFO_REGEX = "([a-zA-Z]+) *= *\"(([a-zA-Z_.]| |\\.)+)";
这是失败追踪:
java.lang.StackOverflowError
at java.util.regex.Pattern$CharProperty.match(Pattern.java:3360)
at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
at java.util.regex.Pattern$CharProperty.match(Pattern.java:3362)
at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
at java.util.regex.Pattern$CharProperty.match(Pattern.java:3362)
at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
...etc (it's all regex).
非常感谢!
答案 0 :(得分:4)
这看起来像bug 5050507。我同意Asaph的说法,取消交替应该有所帮助;该bug专门说“尽可能避免交替”。我想你可能会更简单:
"^([a-zA-Z]+) *= *\"([^\"]+)"
答案 1 :(得分:3)
尝试使用正则表达式的这个简化版本,删除一些不必要的|
运算符(可能导致正则表达式引擎执行大量分支),并包括行锚的开头和结尾。
static final String ANIMAL_INFO_REGEX = "^([a-zA-Z]+) *= *\"([a-zA-Z_. ]+)\"$";
答案 2 :(得分:2)
阅读本文以了解问题:http://www.regular-expressions.info/catastrophic.html ...然后使用其他建议之一
答案 3 :(得分:1)
正如其他人所说的那样,你的正则表达式的效率远低于应有的效率。我会更进一步,使用占有量词:
"^([a-zA-Z]++) *+= *+\"([^\"]++)\"$"
但是你使用扫描仪的方式也没有多大意义。没有必要使用findInLine(".*")
来读取该行;这就是nextLine()
的作用。而且您不需要创建另一个扫描程序来应用您的正则表达式;只需使用匹配器。
static final Pattern ANIMAL_INFO_PATTERN =
Pattern.compile("^([a-zA-Z]++) *+= *+\"([^\"]++)\"$");
...
Matcher lineMatcher = ANIMAL_INFO_PATTERN.matcher("");
while (scanFile.hasNextLine()) {
String currentLine = scanFile.nextLine();
if (lineMatcher.reset(currentLine).matches()) {
matches.put(lineMatcher.group(1), lineMatcher.group(2));
}
}