'IDENTIFIER'规则也使用ANTLR Lexer语法中的关键字

时间:2017-02-14 08:28:01

标签: java parsing antlr tokenize antlr3

在使用Antlr 3.5语法进行Java解析时,注意到“ IDENTIFIER ”规则在ANTLR Lexer语法中消耗了很少的关键字。 Lexer语法是

lexer grammar JavaLexer;

options {
   //k=8;
   language=Java;
   filter=true;
   //backtrack=true;
}

@lexer::header {
package java;
}

@lexer::members {
public ArrayList<String> keywordsList = new ArrayList<String>();
}

V_DECLARATION
:
( ((MODIFIERS)=>tok1=MODIFIERS WS+)? tok2=TYPE WS+ var=V_DECLARATOR WS* )
{...};

fragment
V_DECLARATOR
  :
  (
    tok=IDENTIFIER WS* ( ',' | ';' | ASSIGN WS* V_VALUE )
  )
  {...};

fragment
V_VALUE
: (IDENTIFIER (DOT WS* IDENTIFIER WS* '(' | ',' | ';'))
;

MODIFIERS
  :
  (PUBLIC | PRIVATE | FINAL)+
;

PRIVATE
    :    tok = 'private'
    { keywordsList.add($tok.getText());  }
    ;

PUBLIC
    :    tok = 'public'
    { keywordsList.add($tok.getText()); }
    ;

DOT
    :    '.'
    { keywordsList.add("."); }
    ;

THIS
    :    tok = 'this'
    { keywordsList.add($tok.getText()); }
    ;

ASSIGN
    :    '='
        { keywordsList.add("="); }
    ;    

IDENTIFIER:
  tok =Identifier
  {  
   //System.out.println("Identifier: " + $tok.text);
  }
  ;  

fragment
Identifier 
    :   (Letter (Letter|JavaIDDigit)*);

fragment
Letter
    :  '\u0024' |
       '\u0041'..'\u005a' |
       '\u005f' |
       '\u0061'..'\u007a' |
       '\u00c0'..'\u00d6' |
       '\u00d8'..'\u00f6' |
       '\u00f8'..'\u00ff' |
       '\u0100'..'\u1fff' |
       '\u3040'..'\u318f' |
       '\u3300'..'\u337f' |
       '\u3400'..'\u3d2d' |
       '\u4e00'..'\u9fff' |
       '\uf900'..'\ufaff'
    ;

fragment
JavaIDDigit
    :  '\u0030'..'\u0039' |
       '\u0660'..'\u0669' |
       '\u06f0'..'\u06f9' |
       '\u0966'..'\u096f' |
       '\u09e6'..'\u09ef' |
       '\u0a66'..'\u0a6f' |
       '\u0ae6'..'\u0aef' |
       '\u0b66'..'\u0b6f' |
       '\u0be7'..'\u0bef' |
       '\u0c66'..'\u0c6f' |
       '\u0ce6'..'\u0cef' |
       '\u0d66'..'\u0d6f' |
       '\u0e50'..'\u0e59' |
       '\u0ed0'..'\u0ed9' |
       '\u1040'..'\u1049'
   ;

WS  :  (' '|'\r'|'\t'|'\u000C'|'\n') {$channel=HIDDEN; skip();}
    ;

当我尝试解析该行时:

public final int inch = this.getValue();

然后规则'VAR_VALUE - &gt; IDENTIFIER',也会使用“this”关键字,这是不受欢迎的,因为关键字也会被收集到一个单独的列表中。

Antlr语法中是否有任何技巧/规定可以匹配关键字本身规则而不影响其他功能,如“IDENTIFIER”?

1 个答案:

答案 0 :(得分:3)

你的问题确实是由对词法分析器中属于什么以及解析器中属于什么的误解引起的:

  • Lexer的工作是确定字符流代表的单词
    • e.g。 thisTHIS0NUMBERthatIDENTIFIER
  • Parser的工作是确定词法分析器发出的单词序列是否符合给定的语言,即&#34;句子&#34;用这些词组成的词是有道理的
    • e.g。该声明包含可能的修饰符,类型和标识符列表

由于lexer的工作是确定输入中的哪些单词,它会处理输入并查找最长有效匹配(在ANTLR中,如果两个或多个规则接受相同的输入,源语法中最重要的一个获胜)。不是任何&#34;最具体的&#34;,而只是最长的。

示例:

  • 输入t
    • 可以是THISIDENTIFIER
  • 输入h
    • 仍然可以是THISIDENTIFIER
  • 输入a
    • 不能再THIS,只能IDENTIFIER
  • 输入t
    • IDENTIFIER肯定是
  • 输入.
    • 不再匹配IDENTIFIER,因此that将与IDENTIFIER匹配,最后一个输入.将与下一个令牌的新开头匹配

另一个例子:

  • 输入this
    • 可以整个时间匹配为THISIDENTIFIER
  • 输入.
    • 无法再与任何内容匹配,因此this将匹配为THIS(最顶层的匹配规则),而不是IDENTIFIER,而.将启动新令牌< / LI>

现在重要的部分 - 只要词法规则被另一个词法分析器规则引用,它就被认为只是引用词法分析器规则的一个片段。这意味着匹配它不会发出新的令牌,并且它也不会在片段匹配结束时触发多个匹配令牌之间的任何决策。由于this确实可以与IDENTIFIER规则匹配,因此整个声明符合V_DECLARATION词法分析器规则 - 因此除非另有词法分析器规则可以匹配至少相同长度的输入在语法中比此规则更早,此规则将适用。

您没有提供任何引用THIS的规则,因此我们不知道这在您的语法中是如何发挥作用的,但明显的原因是词法分析器可以匹配更长的输入或更早的规则比任何使用THIS规则的东西。