ANTLR4:在EOF之前消耗所有剩余输入

时间:2015-02-19 08:26:30

标签: java maven antlr antlr4

在这里使用ANTLR版本4.3。

这个语法接受各种EOF分隔的表达式,一次一个。表达式以key开头,之后语法不同。示例接受的字符串:

"cycle in freerun" <EOF>
"runtime <= 20m" <EOF>
"grab enabled" <EOF>

ANTLR快乐地将所有表达式解析为组件,监听器作用于相关组件,生活幸福。以下是语法的代表性片段:

expr               // <-- Start rule
  : freq_p EOF
  | cycle_p EOF
  ...              // Many more, ad nauseum
  ;

freq_p  : FREQ '=' INT | FREQ '<' INT ;

cycle_p : CYCLE IN cycles ;
cycles  : cycle (',' cycle)* ;
cycle   : PHASELOCK | FREERUN ;

// Keywords
CYCLE     : 'cycle' ;
FREERUN   : 'freerun' ;
FREQ      : 'frequency' ;
IN        : 'in' ;
PHASELOCK : 'phaselock' ;

INT       : '0'..'9'+ ;
WS        : [ \n\t\r]+ -> skip ;

但是现在,我需要扩展语法以包含2个新表达式,这两个表达式都接受任何字符序列(包括Unicode)到EOF。样本输入:

"echo = Confirm 'interlock' is clear,\n and actuate \"frequency\" button." <EOF>
"report Process complete." <EOF>

我很难表达接受语法中EOF的所有输入。以下变化导致痛苦:

expr
  ...
  : echo_p EOF
  : report_p EOF
  ...

echo_p   : ECHO   '=' REMAINING ; // Snarfs all remaining input until EOF
report_p : REPORT     REMAINING ; // Ditto

ECHO     : 'echo' ;
REPORT   : 'report' ;

REMAINING : <WHAT_GOES_HERE?> ;  // .* messes up everything else

如何实现这一目标?期望的结果是解析树监听器将获得文本值,例如REMAINING().getText()

被遗弃的方法:Lexer语法利用模式()

我尝试将REMAINING写入单独的lexer grammarimport来自组合语法,但遇到了https://github.com/antlr/antlr4/issues/160和编译时警告。 IntelliJ ANTLR插件也会出现故障,这会对生产力产生负面影响。我了解到包括使用模式的词法分析器语法是不受支持的,至少在ANTLR 4.3中是这样。

lexer grammar Remainder;

@lexer::members {
// Needed at least until ANTLR issue #160 is fixed.
public static final int CONSUME_ALL = 123;
}

REMAINING : . -> more, mode(CONSUME_ALL) ;

mode CONSUME_ALL;

TEXT : .* ; // Consume all remaining input

1 个答案:

答案 0 :(得分:0)

您应该.*?添加REMAINING : .*? ;

EOF

这将消耗所有内容,直到找到{{1}}

看看这里: https://theantlrguy.atlassian.net/wiki/display/ANTLR4/Wildcard+Operator+and+Nongreedy+Subrules