JFlex限制单行注释正则表达式

时间:2018-10-28 16:04:30

标签: java regex comments jflex

我正在为一种组合语言构建词法分析器,并且在定义单行注释正则表达式时遇到了问题。

问题是注释的允许字符受到限制。仅允许使用某些字符,其中包括:空格,数字,字母和一些符号(例如*/+-)。单行注释以//开始(如C和Java),并且其定义(除了受限制的字符)与C和Java中的相同。

首先,我尝试了以下正则表达式:

"//" ([a-zA-Z0-9] | [*] | [/] | [+] | [-] | [ \t\f])* (\r|\n|\r\n)

希望可以捕获单行注释,但是不幸的是,由于文件末尾没有行终止符,因此不会捕获文件末尾的单行注释。

我试图将其更改为:

"//" ([a-zA-Z0-9] | [*] | [/] | [+] | [-] | [ \t\f])* ((\r|\n|\r\n) | [^.])

希望[^.]会发现以下事实:注释后不允许使用字符(以某种方式模仿EOF?),但这种方法不起作用,并且正则表达式可以捕获所有内容,直到禁止使用的字符,例如:// comment = 1转换为single line comment=1

我不能使用JFlex的<<EOF>>,因为它不能成为正则表达式的一部分。

是否有很好的 regex 解决方案? (假设我无法修改输入)。

谢谢!

1 个答案:

答案 0 :(得分:0)

在jflex手册中:
http://jflex.de/manual.html#Example

TraditionalComment   = "/*" [^*] ~"*/" | "/*" "*"+ "/"
// Comment can be the last line of the file, without line terminator.
EndOfLineComment     = "//" {InputCharacter}* {LineTerminator}?
DocumentationComment = "/**" {CommentContent} "*"+ "/"
CommentContent       = ( [^*] | \*+ [^/*] )*

还请注意,您可以使用%eofval使用特定的eof值,这也在我上面发布的手册中进行了讨论。

我意识到您是在专门寻求正则表达式解决方案,但是也可能有更好的方法可以通过使用词法状态来简化此问题-您可以使用符号“ //”来表示注释状态的入口;一旦进入该状态,您就可以捕获所有字母数字字符,直到碰到一行的行结束符为止,返回tag.comment令牌,然后转换回yyinitial状态并继续进行词法化。

例如,包括我上面讨论的所有内容:

%%
%state COMMENT
%%
%eofval{
    return getToken(tag.EOF, null);
%eofval}


comment = "//"
eol = "\r\n\"
characters = [a-zA-Z0-9] | [*] | [/] | [+] | [-]
%%
<YYINITIAL> {comment}{
    yybegin(COMMENT);
    return getToken(tag.Comment, yytext());
}

<COMMENT> {characters}{eol}{
    yybegin(YYINITIAL);
}

**免责声明,作为词法分析器,这是不完整的,超出了我的脑海。这更多地证明了我上面讨论的示例