我正在尝试使用ANTLR和Java创建编译器。我有这个问题,我有一个规则,我不能只使用它的一部分。我有一个命令,例如0:HALT 0,0,0我想在此之后忽略其他所有内容。
例如:HALT 0,0,0等等等等,我想忽略等等等等等等等等。
我的规则是:
rule returns [String value]
:
INTEGER':' ro=rocommand i1=INTEGER',' i2=INTEGER ',' i3=INTEGER rest {$value = $ro.text+" "+$i1.text+","+$i2.text+","+$i3.text; }
| INTEGER':' rm=rmcommand j1=INTEGER ',' j2=INTEGER '('j3=INTEGER')' rest {$value = $rm.text+" "+$j1.text+","+$j2.text+"("+$j3.text+")"; }
;
我的代码是:
CharStream charStream = new ANTLRStringStream(strLine);
simulatorLexer lexer = new simulatorLexer(charStream);
TokenStream tokenStream = new CommonTokenStream(lexer);
simulatorParser parser = new simulatorParser(tokenStream);
System.out.println(parser.rule());
我得到的是:
0: rule:IN 0,0,0
1: rule:LDC 1,1,0
line 1:15 no viable alternative at character 'r'
line 1:18 no viable alternative at character '='
line 1:15 no viable alternative at character 'i'
的文字:
0: rule:IN 0,0,0
1: rule:LDC 1,1,0 r1=0
所以它应该正确地解析第一行,然后解析第二行,然后它应该忽略r1 = 0。它到目前为止工作正常,但它显示了一些错误,我想摆脱它们。请帮帮我!
我发布了整个语法,所以你可以帮助我更好。我只想识别规则部分。
program:
rule+
;
rocommand:
'HALT'|'IN'|'OUT'|'ADD'|'SUB'|'MUL'|'DIV'|'LDC'
;
rmcommand:
'LD'|'LDA'|'LDC'|'ST'|'JLT'|'JLE'|'JGE'|'JGT'|'JEQ'|'JNE'
;
rest:
~('\n'|'\r')* '\r'? ('\n'|EOF)
;
rule returns [String value]
:
INTEGER':' ro=rocommand i1=INTEGER',' i2=INTEGER ',' i3=INTEGER rest {$value = $ro.text+" "+$i1.text+","+$i2.text+","+$i3.text; }
| INTEGER':' rm=rmcommand j1=INTEGER ',' j2=INTEGER '('j3=INTEGER')' rest {$value = $rm.text+" "+$j1.text+","+$j2.text+"("+$j3.text+")"; }
;
WS : (' '|'\r'|'\t'|'\u000C'|'\n') {$channel=HIDDEN;};
INTEGER : '0'..'9'+;
IGNORELINE : '*' ~('\n'|'\r')* '\r'? '\n' {$channel=HIDDEN;};
亚历
答案 0 :(得分:4)
规则存在一些问题:
rest:
~('\n'|'\r')* '\r'? ('\n'|EOF)
;
在解析器规则中,~
否定了词法分析器产生的整个标记集。因此~('\n'|'\r')
不会 匹配'\n'
或'\r'
以外的单个字符。它匹配匹配\r
或\n
的令牌以外的任何令牌。
此外,由于您的词法分析器会将'\n'
和'\r'
放在隐藏频道上,因此您的解析器中将无法使用这些令牌。这意味着'\n'
规则中的rest
永远无法匹配。
简而言之:您无法“告诉”解析器行的结尾是什么,因为WS
规则会丢弃这些字符。这意味着您无法正确编写此类rest
解析器规则。
您的意见:
0: IN 0,0,0
1: LDC 1,1,0 r1=0
(请注意,我删除了'rule:'
)
你的词作者会产生以下代币:
token[type=INTEGER text='0']
token[type=':' text=':']
token[type='IN' text='IN']
token[type=INTEGER text='0']
token[type=',' text=',']
token[type=INTEGER text='0']
token[type=',' text=',']
token[type=INTEGER text='0']
token[type=INTEGER text='1']
token[type=':' text=':']
token[type='LDC' text='LDC']
token[type=INTEGER text='1']
token[type=',' text=',']
token[type=INTEGER text='1']
token[type=',' text=',']
token[type=INTEGER text='0']
token[type=INTEGER text='1']
token[type=INTEGER text='0']
因此,这些是解析器规则中可用的标记。
请注意,词法分析器无法匹配以下两个字符'='
和'r'
,您可以通过查看错误看到:
line 2:13 no viable alternative at character 'r'
line 2:15 no viable alternative at character '='
一种可能的解决方案是创建一个匹配整数和冒号的词法分析器规则:
START : INTEGER ':';
让你的rule
以这个标记开头:
rule
: START ro=rocommand i1=INTEGER ',' i2=INTEGER ',' i3=INTEGER rest ...
| ...
;
这样,您的rest
可以匹配除START
令牌以外的零个或多个令牌:
rest
: ~START*
;
要捕获'='
和'r'
字符,请创建ANY
规则并将此规则放在词法规则的末尾:
ANY : . ; // match any char
这样,解析器将创建以下解析树:
另一种解决方案是创建LINE_BREAK
令牌:
LINE_BREAK : '\r'? '\n' | '\r';
(当然,从\r
删除\n
和WS
!)
做这样的事情:
rule
: INTEGER ':' ro=rocommand i1=INTEGER ',' i2=INTEGER ',' i3=INTEGER rest LINE_BREAK ...
| ...
;
rest
: ~LINE_BREAK*
;