ANTLR4令牌图像串联与混合中的注释

时间:2013-05-13 11:08:11

标签: java parsing antlr4 lexical-analysis

我正在尝试为某种语言编写一个ANTLR4词法分析器。我有一个工作,但我并不完全满意。

keyword "my:little:uri" + /* my comment here */ ':it:is'
// nasty comment
+ ":mehmeh"; // single line comment

keyword + {}

这是该语言中的语句示例。它只是一串关键字后跟字符串参数,并以分号或子语句块结束。字符串可以是不带引号,单引号或双引号。引用的字符串可以连接在上面的例子中。包含加号(+)的未加引号的字符串有效。

我发现有问题的是评论。我想识别关键字作为单个字符串标记后面的内容,没有注释(和空格)。我通常使用more lexer命令,但我不认为它适用于上面的例子。是否有一种模式可以让我实现这样的目标?

我目前的词法分析器语法:

lexer grammar test;

@members {
    public static final int CHANNEL_COMMENTS = 1;
}

WHITESPACE : (' ' | '\t' | '\n' | '\r' | '\f') -> skip;

SINGLE_LINE_COMMENT : '//' (~[\n\r])* ('\n' | '\r' | '\r\n')? -> channel(CHANNEL_COMMENTS);

MULTI_LINE_COMMENT : '/*' .*? '*/' -> channel(CHANNEL_COMMENTS);

KEYWORD :  'keyword' -> pushMode(IN_STRING_KEYWORD);

LBRACE : '{';
RBRACE : '}';
SEMICOLON : ';';

mode IN_STRING_KEYWORD;
STRING_WHITESPACE : WHITESPACE -> skip;
STRING_SINGLE_LINE_COMMENT : SINGLE_LINE_COMMENT -> type(SINGLE_LINE_COMMENT), channel(CHANNEL_COMMENTS);
STRING_MULTI_LINE_COMMENT : MULTI_LINE_COMMENT -> type(MULTI_LINE_COMMENT), channel(CHANNEL_COMMENTS);
STRING_LBRACE : LBRACE -> type(LBRACE), popMode;
STRING_SEMICOLON : SEMICOLON -> type(SEMICOLON), popMode;
STRING : ((QUOTED_STRING ('+' QUOTED_STRING)*) | UNQUOTED_STRING);
fragment QUOTED_STRING : (SINGLEQUOTED_STRING | DOUBLEQUOTED_STRING);
fragment UNQUOTED_STRING : (~[ \t;{}/*'"\n\r] | '/' ~[/*] | '*' ~['/'])+;
fragment SINGLEQUOTED_STRING : '\'' (~['])* '\'';
fragment DOUBLEQUOTED_STRING : 
    '"'
      (
        (~["\\]) |
        ('\\' [nt"\\])
      )* 
    '"'
;

我是否可能尝试在词法分析器中做太多,并且应该只将我目前拥有的内容提供给解析器并让它处理上面的混乱?

Edit01

感谢280Z28,我决定通过删除STRING令牌并简单地解决QUOTED_STRINGUNQUOTED_STRING和运算符CONCAT来修复上述词法分析器语法。其余的将在解析器中处理。我还添加了一个额外的词法分析器模式,以区分CONCATUNQUOTED_STRING

lexer grammar test;

@members {
    public static final int CHANNEL_COMMENTS = 2;
}

WHITESPACE : (' ' | '\t' | '\n' | '\r' | '\f') -> skip;
SINGLE_LINE_COMMENT : '//' (~[\n\r])*  -> channel(CHANNEL_COMMENTS);
MULTI_LINE_COMMENT : '/*' .*? '*/' -> channel(CHANNEL_COMMENTS);

KEYWORD :  'keyword' -> pushMode(IN_STRING_KEYWORD);

LBRACE : '{';
RBRACE : '}';
SEMICOLON : ';';

mode IN_STRING_KEYWORD;
STRING_WHITESPACE : WHITESPACE -> skip;
STRING_SINGLE_LINE_COMMENT : SINGLE_LINE_COMMENT -> type(SINGLE_LINE_COMMENT), channel(CHANNEL_COMMENTS);
STRING_MULTI_LINE_COMMENT : MULTI_LINE_COMMENT -> type(MULTI_LINE_COMMENT), channel(CHANNEL_COMMENTS);
STRING_LBRACE : LBRACE -> type(LBRACE), popMode;
STRING_SEMICOLON : SEMICOLON -> type(SEMICOLON), popMode;
QUOTED_STRING : (SINGLEQUOTED_STRING | DOUBLEQUOTED_STRING) -> mode(IN_QUOTED_STRING);
UNQUOTED_STRING : (~[ \t;{}/*'"\n\r] | '/' ~[/*] | '*' ~[/])+;
fragment SINGLEQUOTED_STRING : '\'' (~['])* '\'';
fragment DOUBLEQUOTED_STRING : 
    '"'
      (
        (~["\\]) |
        ('\\' [nt"\\])
      )* 
    '"'
;

mode IN_QUOTED_STRING;
QUOTED_STRING_WHITESPACE : WHITESPACE -> skip;
QUOTED_STRING_SINGLE_LINE_COMMENT : SINGLE_LINE_COMMENT -> type(SINGLE_LINE_COMMENT), channel(CHANNEL_COMMENTS);
QUOTED_STRING_MULTI_LINE_COMMENT : MULTI_LINE_COMMENT -> type(MULTI_LINE_COMMENT), channel(CHANNEL_COMMENTS);
QUOTED_STRING_LBRACE : LBRACE -> type(LBRACE), popMode;
QUOTED_STRING_SEMICOLON : SEMICOLON -> type(SEMICOLON), popMode;
QUOTED_STRING2 : QUOTED_STRING -> type(QUOTED_STRING);
CONCAT : '+';

1 个答案:

答案 0 :(得分:1)

  • 不要在词法分析器中执行字符串连接。将+运算符作为运算符发送到解析器。这将使很多更容易消除字符串和运算符之间出现的空白和/或注释。

    CONCAT : '+';
    STRING : QUOTED_STRING | UNQUOTED_STRING;
    
  • 您应该知道ANTLR 4已将预定义的HIDDEN频道从99更改为1,因此HIDDENCHANNEL_COMMENTS在您的语法中是相同的。

  • 请勿在{{1​​}}规则的末尾添加行终止符。

    SINGLE_LINE_COMMENT
  • 您的SINGLE_LINE_COMMENT : '//' (~[\n\r])* -> channel(CHANNEL_COMMENTS) ; 令牌目前包含集UNQUOTED_STRING。如果您要排除['/']个字符,则该集中的第二个'是多余的,因此您可以使用'。如果您只想排除['/],则可以使用语法/[/]