令牌识别错误:antlr

时间:2014-01-26 21:39:44

标签: antlr grammar antlr4 lexer antlrworks2

我有一个ANTLR 4语法:

grammar Test;

start : NonZeroDigit '.' Digit Digit? EOF
      ;

DOT            :    '.'  ;
PLUS           :    '+'  ;
MINUS          :    '-'  ;
COLON          :    ':'  ;
COMMA          :    ','  ;
QUOTE          :    '\"' ;
EQUALS         :    '='  ;
SEMICOLON      :    ';'  ;
UNDERLINE      :    '_'  ;
BACKSLASH      :    '\\' ;
SINGLEQUOTE    :    '\'' ;

RESULT_TYPE_NONE          :    'NONE'       ;
RESULT_TYPE_RESULT        :    'RESULT'     ;
RESULT_TYPE_RESULT_SET    :    'RESULT_SET' ;

TYPE_INT       :    'Int'    ;
TYPE_LONG      :    'Long'   ;
TYPE_BOOL      :    'Bool'   ;
TYPE_DATE      :    'Date'   ;
TYPE_DOUBLE    :    'Double' ;
TYPE_STRING    :    'String' ;

TYPE_INT_LIST       :    'List<Int>'   ;
TYPE_LONG_LIST      :    'List<Long>'   ;
TYPE_BOOL_LIST      :    'List<Bool>'   ;
TYPE_DATE_LIST      :    'List<Date>'   ;
TYPE_DOUBLE_LIST    :    'List<Double>' ;
TYPE_STRING_LIST    :    'List<String>' ;

LONG_END      :    'L' ;
DOUBLE_END    :    'd' ;

DATE_NOW      :    'NOW'   ;
BOOL_TRUE     :    'true'  ;
BOOL_FALSE    :    'false' ;

BLOCK_OPEN       :    '{' ;
BLOCK_CLOSE      :    '}' ;
GENERIC_OPEN     :    '<' ;
GENERIC_CLOSE    :    '>' ;
BRACKET_OPEN     :    '(' ;
BRACKET_CLOSE    :    ')' ;

MAP      :    'Map'   ;
LIST     :    'List'  ;
GROUP    :    'Group' ;

BY             :    'by'         ;
DEFAULT        :    'default'    ;
JSON_NAME      :    'JSONName'   ;
INTERFACE      :    'interface'  ;
CLASS          :    'class'      ;
ABSTRACT       :    'abstract'   ;
IMPLEMENTS     :    'implements' ;
EXTENDS        :    'extends'    ;
CACHEABLE      :    'cacheable'  ;
FUNCTION       :    'function'   ;
REQUEST        :    'request'    ;
NAMED_QUERY    :    'namedQuery' ;
INPUT          :    'input'      ;
OUTPUT         :    'output'     ;
RESULT_TYPE    :    'resultType' ;
PACKAGE        :    'package'    ;
SCHEMA         :    'schema'     ;
VERSION        :    'version'    ;
MIN_VERSION    :    'minVersion' ;

fragment
NonZeroDigit : [1-9]
             ;

fragment
Digit : '0' | NonZeroDigit
      ;

fragment
Digits : Digit+
       ;

fragment
IntegerNumber : '0' | ( NonZeroDigit Digits? )
              ;

fragment
SignedIntegerNumber : ( '+' | '-' )? IntegerNumber
                    ;

fragment
FloatingNumber : IntegerNumber ( '.' Digits )?
               ;

fragment
SignedFloatingNumber : ( '+' | '-' )? FloatingNumber
                     ;

fragment
Letter : [a-z]
       ;

fragment
Letters : Letter+
        ;

fragment
CapitalLetter : [A-Z]
              ;

fragment
CapitalLetters : CapitalLetter+
               ;

fragment
LetterOrDigitOrUnderline : Letter | CapitalLetter | Digit | '_'
                         ;

fragment
EscapeSequence :   ( '\\' ( 'b' | 't' | 'n' | 'f' | 'r' | '\"' | '\'' | '\\' ) ) 
               |   UnicodeEscape
               |   OctalEscape
               ;

fragment
HexDigit : [0-9] | [a-f] | [A-F]
         ;

fragment
UnicodeEscape : '\\' 'u' HexDigit HexDigit HexDigit HexDigit
              ;

fragment
OctalEscape :   ( '\\' [0-3] [0-7] [0-7] )
            |   ( '\\' [0-7] [0-7] )
            |   ( '\\' [0-7] )
            ;

WS : [ \t\r\n]+ -> skip
   ;

我正在使用它:

final ByteArrayInputStream input = new ByteArrayInputStream("1.11".getBytes());
final TestLexer lexer = new TestLexer(new ANTLRInputStream(input));
final TestParser parser = new TestParser(new CommonTokenStream(lexer));
parser.start();

但是这给了我:

line 1:0 token recognition error at: '1'
line 1:2 token recognition error at: '1'
line 1:3 token recognition error at: '1'
line 1:1 missing NonZeroDigit at '.'
line 1:4 missing Digit at '<EOF>'

我做错了什么?我正在使用antlr v4.1。

提前感谢您的帮助。

2 个答案:

答案 0 :(得分:5)

fragment词法分析器规则只能由其他词法分析器规则使用:这些规则永远不会成为令牌。因此,您无法在解析器规则中使用fragment规则。

答案 1 :(得分:0)

fragment并非根本原因。


首先,尝试重现您的错误:

编译Test.g4时,它将在下面显示警告:

warning(156): Test.g4:11:21: invalid escape sequence \"
warning(156): Test.g4:123:59: invalid escape sequence \"
warning(146): Test.g4:11:0: non-fragment lexer rule QUOTE can match the empty string
warning(125): Test.g4:3:8: implicit definition of token NonZeroDigit in parser
warning(125): Test.g4:3:25: implicit definition of token Digit in parser


删除未使用的规则后:

grammar Test;

start : NonZeroDigit '.' Digit Digit? EOF
      ;

fragment
NonZeroDigit : [1-9]
             ;

fragment
Digit : '0' | NonZeroDigit
      ;


然后再次编译并测试它:

warning(125): Test.g4:3:8: implicit definition of token NonZeroDigit in parser
warning(125): Test.g4:3:25: implicit definition of token Digit in parser


line 1:0 token recognition error at: '1'
line 1:2 token recognition error at: '1'
line 1:3 token recognition error at: '1'
line 1:1 missing NonZeroDigit at '.'
line 1:4 missing Digit at '<EOF>'
(start <missing NonZeroDigit> . <missing Digit> <EOF>)

(尝试重现您的错误)

应用“片段”

NonZeroDigitDigit上应用'fragment'时,g4等同于:

NonZeroDigit替换为[1-9]

grammar Test;

start : [1-9] '.' Digit Digit? EOF
      ;

fragment
Digit : '0' | [1-9]
      ;


Digit替换为('0' | [1-9])

grammar Test;

start : [1-9] '.' ('0' | [1-9]) ('0' | [1-9])? EOF
      ;

但是解析器规则start(标识符以小写字母开头)不能全是字母。


请参阅The Definitive ANTLR 4 Reference Page73

  

具有大写字母的lexer规则名称和具有大写字母的解析器规则名称   小写字母。例如,ID是一个词法规则名称,而expr是   解析器规则名称。


删除“片段”后

从g4删除“片段”后,仍然出现意外错误。

line 1:3 extraneous input '3' expecting {<EOF>, Digit}
(start 1 . 0 3 <EOF>)


错误研究:
对于NonZeroDigit
如果将其命名为nonZeroDigit,我们将得到:

syntax error: '1-9' came as a complete surprise to me while matching alternative

因为[1-9]是一个字母(常量令牌)。我们需要使用大写前缀来命名它。 (= lexer规则)


for Digit
它包含标识符NonZeroDigit,因此我们需要使用小写字母前缀对其进行命名。 (=解析器规则)


正确的Test.g4应该是:

grammar Test;

start : NonZeroDigit '.' digit digit? EOF
      ;

NonZeroDigit : [1-9]
             ;

digit : '0' | NonZeroDigit
      ;


如果要使用fragment,则应创建一个词法分析器规则Number,因为该规则仅由字母(常量标记)组成。并且标识符应以大写字母开头,start不是

grammar Test;

start : Number EOF
      ;

Number : NonZeroDigit '.' Digit Digit?
       ;

fragment
NonZeroDigit : [1-9]
             ;

fragment
Digit : '0' | NonZeroDigit
      ;