Question

我正在尝试使用ANTLR和Java创建编译器。我有这个问题，我有一个规则，我不能只使用它的一部分。我有一个命令，例如0：HALT 0,0,0我想在此之后忽略其他所有内容。

例如：HALT 0,0,0等等等等，我想忽略等等等等等等等等。

我的规则是：

    rule returns [String value]
    :
    INTEGER':' ro=rocommand i1=INTEGER',' i2=INTEGER ',' i3=INTEGER rest {$value = $ro.text+" "+$i1.text+","+$i2.text+","+$i3.text;   }
    | INTEGER':' rm=rmcommand j1=INTEGER ',' j2=INTEGER '('j3=INTEGER')' rest {$value = $rm.text+" "+$j1.text+","+$j2.text+"("+$j3.text+")"; }
;

我的代码是：

CharStream charStream = new ANTLRStringStream(strLine);
simulatorLexer lexer = new simulatorLexer(charStream);
TokenStream tokenStream = new CommonTokenStream(lexer);
simulatorParser parser = new simulatorParser(tokenStream);
System.out.println(parser.rule());

我得到的是：

0: rule:IN 0,0,0
1: rule:LDC 1,1,0
line 1:15 no viable alternative at character 'r'
line 1:18 no viable alternative at character '='
line 1:15 no viable alternative at character 'i'

的文字：

0: rule:IN 0,0,0
1: rule:LDC 1,1,0 r1=0

所以它应该正确地解析第一行，然后解析第二行，然后它应该忽略r1 = 0。它到目前为止工作正常，但它显示了一些错误，我想摆脱它们。请帮帮我！

修改

我发布了整个语法，所以你可以帮助我更好。我只想识别规则部分。

program:
    rule+
;


rocommand:
    'HALT'|'IN'|'OUT'|'ADD'|'SUB'|'MUL'|'DIV'|'LDC'
;

rmcommand:
    'LD'|'LDA'|'LDC'|'ST'|'JLT'|'JLE'|'JGE'|'JGT'|'JEQ'|'JNE' 
;

rest:
  ~('\n'|'\r')* '\r'? ('\n'|EOF)
;

rule returns [String value]
    :
    INTEGER':' ro=rocommand i1=INTEGER',' i2=INTEGER ',' i3=INTEGER rest {$value = $ro.text+" "+$i1.text+","+$i2.text+","+$i3.text;   }
    | INTEGER':' rm=rmcommand j1=INTEGER ',' j2=INTEGER '('j3=INTEGER')' rest {$value = $rm.text+" "+$j1.text+","+$j2.text+"("+$j3.text+")"; }
;

WS  : (' '|'\r'|'\t'|'\u000C'|'\n') {$channel=HIDDEN;};
INTEGER : '0'..'9'+;
IGNORELINE : '*' ~('\n'|'\r')* '\r'? '\n' {$channel=HIDDEN;};

亚历

Answer 1

规则存在一些问题：

rest:
  ~('\n'|'\r')* '\r'? ('\n'|EOF)
;

在解析器规则中，~否定了词法分析器产生的整个标记集。因此~('\n'|'\r')不会匹配'\n'或'\r'以外的单个字符。它匹配匹配\r或\n的令牌以外的任何令牌。

此外，由于您的词法分析器会将'\n'和'\r'放在隐藏频道上，因此您的解析器中将无法使用这些令牌。这意味着'\n'规则中的rest永远无法匹配。

简而言之：您无法“告诉”解析器行的结尾是什么，因为WS规则会丢弃这些字符。这意味着您无法正确编写此类rest解析器规则。

您的意见：

0: IN 0,0,0
1: LDC 1,1,0 r1=0

（请注意，我删除了'rule:'）

你的词作者会产生以下代币：

token[type=INTEGER text='0']
token[type=':'     text=':']
token[type='IN'    text='IN']
token[type=INTEGER text='0']
token[type=','     text=',']
token[type=INTEGER text='0']
token[type=','     text=',']
token[type=INTEGER text='0']
token[type=INTEGER text='1']
token[type=':'     text=':']
token[type='LDC'   text='LDC']
token[type=INTEGER text='1']
token[type=','     text=',']
token[type=INTEGER text='1']
token[type=','     text=',']
token[type=INTEGER text='0']
token[type=INTEGER text='1']
token[type=INTEGER text='0']

因此，这些是解析器规则中可用的标记。

请注意，词法分析器无法匹配以下两个字符'='和'r'，您可以通过查看错误看到：

line 2:13 no viable alternative at character 'r'
line 2:15 no viable alternative at character '='

一种可能的解决方案是创建一个匹配整数和冒号的词法分析器规则：

START : INTEGER ':';

让你的rule以这个标记开头：

rule
 : START ro=rocommand i1=INTEGER ',' i2=INTEGER ',' i3=INTEGER rest ...
 | ...
 ;

这样，您的rest可以匹配除START令牌以外的零个或多个令牌：

rest
 : ~START*
 ;

要捕获'='和'r'字符，请创建ANY规则并将此规则放在词法规则的末尾：

ANY : . ; // match any char

这样，解析器将创建以下解析树：

enter image description here

另一种解决方案是创建LINE_BREAK令牌：

LINE_BREAK : '\r'? '\n' | '\r';

（当然，从\r删除\n和WS！）

做这样的事情：

rule
 : INTEGER ':' ro=rocommand i1=INTEGER ',' i2=INTEGER ',' i3=INTEGER rest LINE_BREAK ...
 | ...
 ;

rest
 : ~LINE_BREAK*
 ;

Java ANTLR如何忽略部分规则？在subrule之后忽略part

修改

1 个答案: