不同的词法规则处于不同的状态

时间:2011-10-22 17:53:53

标签: antlr state antlr3 lexer

我一直在研究HTML中嵌入的一些模板语言的解析器(FreeMarker),这里有一个例子:

${abc}
<html> 
<head> 
  <title>Welcome!</title> 
</head> 
<body> 
  <h1> 
    Welcome ${user}<#if user == "Big Joe">, our beloved 
leader</#if>! 
  </h1> 
  <p>Our latest product: 
  <a href="${latestProduct}">${latestProduct}</a>! 
</body> 
</html>

模板语言介于某些特定标签之间,例如: '$ {''}','&lt;#''&gt;'。中间的其他原始文本可以被视为相同的令牌(RAW)。

这里的关键点是相同的文字,例如一个整数,对于解析器来说意味着什么,取决于它是否在这些标记之间,因此需要被视为不同的标记。

我尝试过以下丑陋的实现,并使用自定义状态来指示它是否在这些标记中。如你所见,我必须在每条规则中检查状态,这让我发疯了......

我也考虑过以下两种解决方案:

  1. 使用多个词法分析器。我可以在这些标签的内部/外部切换两个词法分析器。但是,ANTLR3的文档很差。我不知道如何让一个解析器共享两个不同的词法分析器并在它们之间切换。

  2. 在NUMERICAL_ESCAPE规则之后向上移动RAW规则。检查那里的状态,如果它在标签中,则放回令牌并继续尝试左边的规则。这将节省大量的状态检查。但是,我没有找到任何“回放”功能,ANTLR抱怨一些规则永远无法匹配......

  3. 对此有优雅的解决方案吗?

    grammar freemarker_simple;
    
    @lexer::members {
    int freemarker_type = 0;
    }
    
    expression
        :   primary_expression ;
    
    primary_expression
        :   number_literal | identifier | parenthesis | builtin_variable
        ;
    
    parenthesis
        :   OPEN_PAREN expression CLOSE_PAREN ;
    
    number_literal
        :   INTEGER | DECIMAL
        ;
    
    identifier
        :   ID
        ;
    
    builtin_variable
        :   DOT ID
        ;
    
    string_output
        :   OUTPUT_ESCAPE expression CLOSE_BRACE
        ;
    
    numerical_output
        :   NUMERICAL_ESCAPE expression  CLOSE_BRACE
        ;
    
    if_expression
        :   START_TAG IF expression DIRECTIVE_END optional_block
            ( START_TAG ELSE_IF expression loose_directive_end optional_block )*
            ( END_TAG ELSE optional_block )?
            END_TAG END_IF
        ;
    
    list    :   START_TAG LIST expression AS ID DIRECTIVE_END optional_block END_TAG END_LIST ;
    
    for_each
        :   START_TAG FOREACH ID IN expression DIRECTIVE_END optional_block END_TAG END_FOREACH ;
    
    loose_directive_end
        :   ( DIRECTIVE_END | EMPTY_DIRECTIVE_END ) ;
    
    freemarker_directive
        :   ( if_expression | list | for_each  ) ;
    content :   ( RAW |  string_output | numerical_output | freemarker_directive ) + ;
    optional_block
        :   ( content )? ;
    
    root    :   optional_block EOF  ;
    
    START_TAG
        :   '<#'
            { freemarker_type = 1; }
        ;
    
    END_TAG :   '</#'
            { freemarker_type = 1; }
        ;
    
    DIRECTIVE_END
        :   '>'
            {
            if(freemarker_type == 0) $type=RAW;
            freemarker_type = 0;
            }
        ;
    EMPTY_DIRECTIVE_END
        :   '/>'
            {
            if(freemarker_type == 0) $type=RAW;
            freemarker_type = 0;
            }
        ;
    
    OUTPUT_ESCAPE
        :   '${'
            { if(freemarker_type == 0) freemarker_type = 2; }
        ;
    NUMERICAL_ESCAPE
        :   '#{'
            { if(freemarker_type == 0) freemarker_type = 2; }
        ;
    
    IF  :   'if'
            { if(freemarker_type == 0) $type=RAW; }
        ;
    ELSE    :   'else' DIRECTIVE_END
            { if(freemarker_type == 0) $type=RAW; }
        ; 
    ELSE_IF :   'elseif'
            { if(freemarker_type == 0) $type=RAW; }
        ; 
    LIST    :   'list'
            { if(freemarker_type == 0) $type=RAW; }
        ; 
    FOREACH :   'foreach'
            { if(freemarker_type == 0) $type=RAW; }
        ; 
    END_IF  :   'if' DIRECTIVE_END
            { if(freemarker_type == 0) $type=RAW; }
        ; 
    END_LIST
        :   'list' DIRECTIVE_END
            { if(freemarker_type == 0) $type=RAW; }
        ; 
    END_FOREACH
        :   'foreach' DIRECTIVE_END
            { if(freemarker_type == 0) $type=RAW; }
        ;
    
    
    FALSE: 'false' { if(freemarker_type == 0) $type=RAW; };
    TRUE: 'true' { if(freemarker_type == 0) $type=RAW; };
    INTEGER: ('0'..'9')+ { if(freemarker_type == 0) $type=RAW; };
    DECIMAL: INTEGER '.' INTEGER { if(freemarker_type == 0) $type=RAW; };
    DOT: '.' { if(freemarker_type == 0) $type=RAW; };
    DOT_DOT: '..' { if(freemarker_type == 0) $type=RAW; };
    PLUS: '+' { if(freemarker_type == 0) $type=RAW; };
    MINUS: '-' { if(freemarker_type == 0) $type=RAW; };
    TIMES: '*' { if(freemarker_type == 0) $type=RAW; };
    DIVIDE: '/' { if(freemarker_type == 0) $type=RAW; };
    PERCENT: '%' { if(freemarker_type == 0) $type=RAW; };
    AND: '&' | '&&' { if(freemarker_type == 0) $type=RAW; };
    OR: '|' | '||' { if(freemarker_type == 0) $type=RAW; };
    EXCLAM: '!' { if(freemarker_type == 0) $type=RAW; };
    OPEN_PAREN: '(' { if(freemarker_type == 0) $type=RAW; };
    CLOSE_PAREN: ')' { if(freemarker_type == 0) $type=RAW; };
    OPEN_BRACE
        :   '{'
        { if(freemarker_type == 0) $type=RAW; }
        ;
    CLOSE_BRACE
        :   '}'
        {
            if(freemarker_type == 0) $type=RAW;
            if(freemarker_type == 2) freemarker_type = 0;
        }
        ;
    IN: 'in' { if(freemarker_type == 0) $type=RAW; };
    AS: 'as' { if(freemarker_type == 0) $type=RAW; };
    ID  :   ('A'..'Z'|'a'..'z')+
        //{ if(freemarker_type == 0) $type=RAW; }
        ;
    
    BLANK   :   ( '\r' | ' ' | '\n' | '\t' )+
        {
            if(freemarker_type == 0) $type=RAW;
            else $channel = HIDDEN;
        }
        ;
    
    RAW
        :   .
        ;
    

    修改

    我发现问题类似于How do I lex this input?,需要“开始条件”。但不幸的是,答案也使用了很多谓词,就像我的州一样。

    现在,我尝试用谓词移动RAW。希望在RAW规则之后消除所有状态检查。但是,我的示例输入失败,第一行结束被重新声明为BLANK而不是它应该是RAW。

    我猜错了规则优先级: 匹配CLOSE_BRACE后,下一个令牌将与CLOSE_BRACE规则之后的规则匹配,而不是再次从begenning开始。

    有什么方法可以解决这个问题吗?

    下面的新语法包含一些调试输出:

    grammar freemarker_simple;
    
    @lexer::members {
    int freemarker_type = 0;
    }
    
    expression
        :   primary_expression ;
    
    primary_expression
        :   number_literal | identifier | parenthesis | builtin_variable
        ;
    
    parenthesis
        :   OPEN_PAREN expression CLOSE_PAREN ;
    
    number_literal
        :   INTEGER | DECIMAL
        ;
    
    identifier
        :   ID
        ;
    
    builtin_variable
        :   DOT ID
        ;
    
    string_output
        :   OUTPUT_ESCAPE expression CLOSE_BRACE
        ;
    
    numerical_output
        :   NUMERICAL_ESCAPE expression  CLOSE_BRACE
        ;
    
    if_expression
        :   START_TAG IF expression DIRECTIVE_END optional_block
            ( START_TAG ELSE_IF expression loose_directive_end optional_block )*
            ( END_TAG ELSE optional_block )?
            END_TAG END_IF
        ;
    
    list    :   START_TAG LIST expression AS ID DIRECTIVE_END optional_block END_TAG END_LIST ;
    
    for_each
        :   START_TAG FOREACH ID IN expression DIRECTIVE_END optional_block END_TAG END_FOREACH ;
    
    loose_directive_end
        :   ( DIRECTIVE_END | EMPTY_DIRECTIVE_END ) ;
    
    freemarker_directive
        :   ( if_expression | list | for_each  ) ;
    content :   ( RAW |  string_output | numerical_output | freemarker_directive ) + ;
    optional_block
        :   ( content )? ;
    
    root    :   optional_block EOF  ;
    
    START_TAG
        :   '<#'
            { freemarker_type = 1; }
        ;
    
    END_TAG :   '</#'
            { freemarker_type = 1; }
        ;
    
    OUTPUT_ESCAPE
        :   '${'
            { if(freemarker_type == 0) freemarker_type = 2; }
        ;
    NUMERICAL_ESCAPE
        :   '#{'
            { if(freemarker_type == 0) freemarker_type = 2; }
        ;
    RAW
        :
            { freemarker_type == 0 }?=> .
            {System.out.printf("RAW \%s \%d\n",getText(),freemarker_type);}
        ;
    
    DIRECTIVE_END
        :   '>'
            { if(freemarker_type == 1) freemarker_type = 0; }
        ;
    EMPTY_DIRECTIVE_END
        :   '/>'
            { if(freemarker_type == 1) freemarker_type = 0; }
        ;
    
    IF  :   'if'
    
        ;
    ELSE    :   'else' DIRECTIVE_END
    
        ; 
    ELSE_IF :   'elseif'
    
        ; 
    LIST    :   'list'
    
        ; 
    FOREACH :   'foreach'
    
        ; 
    END_IF  :   'if' DIRECTIVE_END
        ; 
    END_LIST
        :   'list' DIRECTIVE_END
        ; 
    END_FOREACH
        :   'foreach' DIRECTIVE_END
        ;
    
    
    FALSE: 'false' ;
    TRUE: 'true' ;
    INTEGER: ('0'..'9')+ ;
    DECIMAL: INTEGER '.' INTEGER ;
    DOT: '.' ;
    DOT_DOT: '..' ;
    PLUS: '+' ;
    MINUS: '-' ;
    TIMES: '*' ;
    DIVIDE: '/' ;
    PERCENT: '%' ;
    AND: '&' | '&&' ;
    OR: '|' | '||' ;
    EXCLAM: '!' ;
    OPEN_PAREN: '(' ;
    CLOSE_PAREN: ')' ;
    OPEN_BRACE
        :   '{'
        ;
    CLOSE_BRACE
        :   '}'
        { if(freemarker_type == 2) {freemarker_type = 0;} }
        ;
    IN: 'in' ;
    AS: 'as' ;
    ID  :   ('A'..'Z'|'a'..'z')+
        { System.out.printf("ID \%s \%d\n",getText(),freemarker_type);}
        ;
    
    BLANK   :   ( '\r' | ' ' | '\n' | '\t' )+
        {
            System.out.printf("BLANK \%d\n",freemarker_type);
            $channel = HIDDEN;
        }
        ;
    

    我的输入结果为输出:

    ID abc 2
    BLANK 0  <<< incorrect, should be RAW when state==0
    RAW < 0  <<< correct
    ID html 0 <<< incorrect, should be RAW RAW RAW RAW
    RAW > 0
    

    EDIT2

    还尝试了Bart的语法的第二种方法,仍然没有工作'html'被识别为ID,应该是4 RAW。当mmode = false时,RAW首先不应该匹配吗?或者词法分析者仍然选择最长的匹配?

    grammar freemarker_bart;
    
    options {
      output=AST;
      ASTLabelType=CommonTree;
    }
    
    tokens {
      FILE;
      OUTPUT;
      RAW_BLOCK;
    }
    
    @parser::members {
    
      // merge a given list of tokens into a single AST
      private CommonTree merge(List tokenList) {
        StringBuilder b = new StringBuilder();
        for(int i = 0; i < tokenList.size(); i++) {
          Token token = (Token)tokenList.get(i);
          b.append(token.getText());
        }
        return new CommonTree(new CommonToken(RAW, b.toString()));
      }
    }
    
    @lexer::members {
      private boolean mmode = false;
    }
    
    parse
      :  content* EOF -> ^(FILE content*)
      ;
    
    content
      :  (options {greedy=true;}: t+=RAW)+ -> ^(RAW_BLOCK {merge($t)})
      |  if_stat
      |  output
      ;
    
    if_stat
      :  TAG_START IF expression TAG_END raw_block TAG_END_START IF TAG_END -> ^(IF expression raw_block)
      ;
    
    output
      :  OUTPUT_START expression OUTPUT_END -> ^(OUTPUT expression)
      ;
    
    raw_block
      :  (t+=RAW)* -> ^(RAW_BLOCK {merge($t)})
      ;
    
    expression
      :  eq_expression
      ;
    
    eq_expression
      :  atom (EQUALS^ atom)* 
      ;
    
    atom
      :  STRING
      |  ID
      ;
    
    // these tokens denote the start of markup code (sets mmode to true)
    OUTPUT_START  : '${'  {mmode=true;};
    TAG_START     : '<#'  {mmode=true;};
    TAG_END_START : '</' ('#' {mmode=true;} | ~'#' {$type=RAW;});
    
    RAW           : {!mmode}?=> . ;
    
    // these tokens denote the end of markup code (sets mmode to false)
    OUTPUT_END    : '}' {mmode=false;};
    TAG_END       : '>' {mmode=false;};
    
    // valid tokens only when in "markup mode"
    EQUALS        : '==';
    IF            : 'if';
    STRING        : '"' ~'"'* '"';
    ID            : ('a'..'z' | 'A'..'Z')+;
    SPACE         : (' ' | '\t' | '\r' | '\n')+ {skip();};
    

1 个答案:

答案 0 :(得分:2)

您可以使用gated semantic predicates让词法分析器规则匹配,您可以在其中测试某个布尔表达式。

一个小小的演示:

freemarker_simple.g

grammar freemarker_simple;

options {
  output=AST;
  ASTLabelType=CommonTree;
}

tokens {
  FILE;
  OUTPUT;
  RAW_BLOCK;
}

@parser::members {

  // merge a given list of tokens into a single AST
  private CommonTree merge(List tokenList) {
    StringBuilder b = new StringBuilder();
    for(int i = 0; i < tokenList.size(); i++) {
      Token token = (Token)tokenList.get(i);
      b.append(token.getText());
    }
    return new CommonTree(new CommonToken(RAW, b.toString()));
  }
}

@lexer::members {
  private boolean mmode = false;
}

parse
  :  content* EOF -> ^(FILE content*)
  ;

content
  :  (options {greedy=true;}: t+=RAW)+ -> ^(RAW_BLOCK {merge($t)})
  |  if_stat
  |  output
  ;

if_stat
  :  TAG_START IF expression TAG_END raw_block TAG_END_START IF TAG_END -> ^(IF expression raw_block)
  ;

output
  :  OUTPUT_START expression OUTPUT_END -> ^(OUTPUT expression)
  ;

raw_block
  :  (t+=RAW)* -> ^(RAW_BLOCK {merge($t)})
  ;

expression
  :  eq_expression
  ;

eq_expression
  :  atom (EQUALS^ atom)* 
  ;

atom
  :  STRING
  |  ID
  ;

// these tokens denote the start of markup code (sets mmode to true)
OUTPUT_START  : '${'  {mmode=true;};
TAG_START     : '<#'  {mmode=true;};
TAG_END_START : '</' ('#' {mmode=true;} | ~'#' {$type=RAW;});

// these tokens denote the end of markup code (sets mmode to false)
OUTPUT_END    : {mmode}?=> '}' {mmode=false;};
TAG_END       : {mmode}?=> '>' {mmode=false;};

// valid tokens only when in "markup mode"
EQUALS        : {mmode}?=> '==';
IF            : {mmode}?=> 'if';
STRING        : {mmode}?=> '"' ~'"'* '"';
ID            : {mmode}?=> ('a'..'z' | 'A'..'Z')+;
SPACE         : {mmode}?=> (' ' | '\t' | '\r' | '\n')+ {skip();};

RAW           : . ;

解析您的输入:

的test.html

${abc}
<html> 
<head> 
  <title>Welcome!</title> 
</head> 
<body> 
  <h1> 
    Welcome ${user}<#if user == "Big Joe">, our beloved leader</#if>! 
  </h1> 
  <p>Our latest product: <a href="${latestProduct}">${latestProduct}</a>!</p>
</body> 
</html>

进入以下AST:

enter image description here

因为你可以用课程来测试自己:

Main.java

import org.antlr.runtime.*;
import org.antlr.runtime.tree.*;
import org.antlr.stringtemplate.*;

public class Main {
  public static void main(String[] args) throws Exception {
    freemarker_simpleLexer lexer = new freemarker_simpleLexer(new ANTLRFileStream("test.html"));
    freemarker_simpleParser parser = new freemarker_simpleParser(new CommonTokenStream(lexer));
    CommonTree tree = (CommonTree)parser.parse().getTree();
    DOTTreeGenerator gen = new DOTTreeGenerator();
    StringTemplate st = gen.toDOT(tree);
    System.out.println(st);
  }
}

编辑1

当我使用从您发布的第二个语法生成的解析器运行示例输入时,以下是打印到控制台的前5行(不包括生成的许多警告):

ID abc 2
RAW 
 0
RAW < 0
ID html 0
...

编辑2

  

Bood写道:

     

还尝试了Bart的语法的第二种方法,仍然没有工作'html'被识别为ID,应该是4 RAW。当mmode = false时,RAW首先不应该匹配吗?或者词法分析者仍然选择最长的匹配?

是的,这是正确的:在这种情况下,ANTLR会选择更长的匹配。

但是现在我(终于:))看到你想要做什么,这是最后一个提议:你可以让RAW规则匹配字符,只要规则看不到其中一个以下字符序列:"<#""</#""${"。请注意,规则仍必须保留在语法的末尾。此检查在词法分析器内执行。此外,在这种情况下,您不需要解析器中的merge(...)方法:

grammar freemarker_simple;

options {
  output=AST;
  ASTLabelType=CommonTree;
}

tokens {
  FILE;
  OUTPUT;
  RAW_BLOCK;
}

@lexer::members {

  private boolean mmode = false;

  private boolean rawAhead() {
    if(mmode) return false;
    int ch1 = input.LA(1), ch2 = input.LA(2), ch3 = input.LA(3);
    return !(
        (ch1 == '<' && ch2 == '#') ||
        (ch1 == '<' && ch2 == '/' && ch3 == '#') ||
        (ch1 == '$' && ch2 == '{')
    );
  }
}

parse
  :  content* EOF -> ^(FILE content*)
  ;

content
  :  RAW
  |  if_stat
  |  output
  ;

if_stat
  :  TAG_START IF expression TAG_END RAW TAG_END_START IF TAG_END -> ^(IF expression RAW)
  ;

output
  :  OUTPUT_START expression OUTPUT_END -> ^(OUTPUT expression)
  ;

expression
  :  eq_expression
  ;

eq_expression
  :  atom (EQUALS^ atom)*
  ;

atom
  :  STRING
  |  ID
  ;

OUTPUT_START  : '${'  {mmode=true;};
TAG_START     : '<#'  {mmode=true;};
TAG_END_START : '</' ('#' {mmode=true;} | ~'#' {$type=RAW;});

OUTPUT_END    : '}' {mmode=false;};
TAG_END       : '>' {mmode=false;};

EQUALS        : '==';
IF            : 'if';
STRING        : '"' ~'"'* '"';
ID            : ('a'..'z' | 'A'..'Z')+;
SPACE         : (' ' | '\t' | '\r' | '\n')+ {skip();};

RAW           : ({rawAhead()}?=> . )+;

上面的语法将从本答案开头发布的输入中产生以下AST:

enter image description here