我认为我使用的正则表达式可以整理一下,看起来有点整洁,但我对正则表达式的了解有限。我想在输入文件的新行上扫描并匹配一系列字母和数字。
import java.io.File;
import java.util.Scanner;
import java.util.regex.*;
public class App {
public static void main(String[] args) throws Exception {
if (args.length == 1) {
String fileName = args[0];
String fileContent = new Scanner(new File(fileName))
.useDelimiter("\\Z").next();
ArrayList<Integer> parsedContent = new ArrayList<>();
parsedContent = parseContentFromFileContent(fileContent);
int firstInt = parsedContent.get(0);
int secondInt = parsedContent.get(1);
int thirdInt = parsedContent.get(2);
int fourthInt = parsedContent.get(3);
int fifthInt = parsedContent.get(4);
System.out.println("First: " + firstInt);
System.out.println("Second: " + secondInt);
System.out.println("Third: " + thirdInt);
System.out.println("Fourth: " + fourthInt);
System.out.println("Fifth: " + fifthInt);
return;
}
}
public static ArrayList<Integer> parseContentFromFileContent(String fileContent) {
ArrayList<Integer> parsedInts = new ArrayList<>();
String pattern = "(.+?).((?:\\d*\\.)?\\d+)?\\n..((?:\\d*\\.)?\\d+)?\\n(.+?).((?:\\d*\\.)?\\d+)";
Pattern p = Pattern.compile(pattern, Pattern.DOTALL);
Matcher m = p.matcher(fileContent);
if (m.matches()) {
// Group 1: Has to match two letters
switch (m.group(1)) {
case "ab":
parsedInts.add(1);
break;
case "cd":
parsedInts.add(2);
break;
case "ef":
parsedInts.add(3);
break;
}
// Group 2: Has to match a number
parsedInts.add(Integer.parseInt(m.group(2)));
// Group 3: Has to match a letter
parsedInts.add(Integer.parseInt(m.group(3)));
// Group 4: Has to match a single letter
switch (m.group(4)) {
case "a":
parsedInts.add(1);
break;
case "b":
parsedInts.add(2);
break;
case "c":
parsedInts.add(3);
break;
}
// Group 5: Has to match a number
parsedInts.add(Integer.parseInt(m.group(5)));
}
return parsedInts;
}
}
输入文件:
ab-123 // Group 1 - Two letters a-z and Group 2 - Number
A=1 // Group 3 - Always A= [number]
a-1 // Group 4 - Letter a-z and Group 5 - Number
cd-1234
A=2
b-2
ef-12345
a=4
c-3
gh-123456
a=4
d-4
是否有更好(更干净)的正则表达式模式可用于从上面的文件中捕获数据。
pattern = (.+?).((?:\\d*\\.)?\\d+)?\\n..((?:\\d*\\.)?\\d+)?\\n(.+?).((?:\\d*\\.)?\\d+)
答案 0 :(得分:2)
目前你的模式不是很精确,与你给出的描述相反。有很多.+?
,但您的描述非常明确地说two letters
或always A=
- 因此您可以在您的模式中使用它。您的模式也会考虑十进制数,而显示的输入中没有,因此您可以删除(?:\\d*\\.)?
。此外,您的所有数字匹配模式都是可选的,但根据您的描述,不应该这样。
如果一个人完全采用你的模式,可能的模式将是
([a-z]{2})-(\\d+)\\n[Aa]=(\\d+)\\n([a-z])-(\\d+)
请参阅https://regex101.com/r/WNxUQa/1
请注意,如果可能存在恶意输入,您可能需要稍微调整一下模式(例如,使用^
和$
)。
答案 1 :(得分:0)
实际上没有优化正则表达式的东西,除非它包含回溯并且你可以删除它。您可以优化外观的方式,但所有执行相同操作的正则表达式都会编译为相同的DFA或等效的DFA,并具有相同的性能。