我想构建一个用于分析大型输入文件的解析器,但我不需要整个输入文件,只需要它的某些部分。
例如,输入文件可能如下所示:
bla bla bla bla bla ...
EVENT: e1
type: t1
version: 1
additional-info: abc
EVENT: e2
type: t2
version: 1
uninteresting-info: def
blu blu blu blu blu ...
从这个文件中,我想要的是要有一个要输入的事件地图(e1 => t1,e2 => t2)。所有其他信息对我都不感兴趣。
如何构建一个简单的ANTLR语法来实现这一目标?
答案 0 :(得分:3)
你可以通过在词法分析器中引入一个布尔标志来跟踪是否遇到event
- 或type
- 关键字。如果遇到过,词法分析器应该不跳过该词,所有其他词应该被跳过。
一个小型演示:
grammar T;
@lexer::members {
private boolean ignoreWord = true;
}
parse
: event* EOF
;
event
: Event w1=Word Type w2=Word
{System.out.println("event=" + $w1.text + ", type=" + $w2.text);}
;
Event
: 'EVENT:' {ignoreWord=false;}
;
Type
: 'type:' {ignoreWord=false;}
;
Word
: ('a'..'z' | 'A'..'Z' | '0'..'9')+ {if(ignoreWord) skip();}
;
NewLine
: ('\r'? '\n' | '\r') {ignoreWord=true; skip();}
;
Other
: . {skip();}
;
您可以使用以下类测试解析器:
import org.antlr.runtime.*;
public class Main {
public static void main(String[] args) throws Exception {
String src =
"bla bla bla bla bla ... \n" +
" \n" +
"prEVENT: ... \n" +
"EVENTs: ... \n" +
" \n" +
"EVENT: e1 \n" +
"type: t1 \n" +
"version: 1 \n" +
"additional-info: abc \n" +
" \n" +
"EVENT: e2 \n" +
"type: t2 \n" +
"version: 1 \n" +
"uninteresting-info: def \n" +
" \n" +
"blu blu blu blu blu ... \n";
TLexer lexer = new TLexer(new ANTLRStringStream(src));
TParser parser = new TParser(new CommonTokenStream(lexer));
parser.parse();
}
}
将产生以下输出:
java -cp antlr-3.3.jar org.antlr.Tool T.g
javac -cp antlr-3.3.jar *.java
java -cp .:antlr-3.3.jar Main
event=e1, type=t1
event=e2, type=t2