什么是在antlr4中处理可选令牌的最佳方法

时间:2017-12-27 10:05:26

标签: parsing lexer antrl4

假设我有以下输入:

Great University
Graduated in 2010
Some University
09/2009 - 06/2011
Nice University
06/2011

我想处理多年的学习。我的语法看起来像那样:

education:
    (section)*
    EOF
    ;

section:
    (school | years)+
   ;

degree:     WORD* DEGREE WORD* SEPARATOR;
years:      WORD* ( (YEAR_START '-')? YEAR_END) WORD* SEPARATOR;
WS          : [ \t\r]+ -> skip;
SEPARATOR   : (NEWLINE | COMMA);
COMMA       : ',';
NEWLINE     : '\n';
SCHOOL      : ('university' | 'University' | 'school' | 'School');
WORD        : [a-zA-Z'()]+;
YEAR_START  : YEAR;
YEAR_END    : YEAR;
YEAR        : (DIGIT DIGIT '/')? [1-2] DIGIT DIGIT DIGIT;
DIGIT       : [0-9];

我收到以下错误:

line 1:17 mismatched input '\n' expecting '-'
line 6:17 mismatched input '\n' expecting '-'

如何通过语法处理可选的开始年份?

1 个答案:

答案 0 :(得分:1)

词法分析器只能为一个模式分配一种标记类型。您希望它能够将一年模式与三种令牌类型相关联,并在运行时决定哪一种是正确的。这不是ANTLR的工作原理。

在您的情况下,第一条规则(即YEAR_START)将捕获所有年份(不仅是可选的年份)。这意味着以下标记化

"Graduated in 2010" -> WORD WORD YEAR_START

唯一匹配的规则是

 years:      WORD* ( (YEAR_START '-')? YEAR_END) WORD* SEPARATOR;

但' - '不见了。

如果删除YEAR_STARTYEAR_END规则并将所有匹配项替换为YEAR,语法应该有效。可能YEAR_STARTYEAR_END的目的是区分开始和结束,但为此目的存在标签。

如果这不起作用,请发布您的完整语法,例如您发布的语法,例如:不包含DEGREE的规则。