我正在为Lua编写一个jFlex词法分析器,我在设计正则表达式以匹配语言规范的一个特定部分时遇到了问题:
也可以使用长括号括起来的长格式来定义文字字符串。我们将n级的开口长支架定义为开口方括号,后跟n个等号后跟另一个开口方括号。因此,0级的开头长括号写为[[,1级的开头长括号写为[= [,依此类推。结束长括号的定义相似;例如,级别4的结束长括号写为] ====]。一个长字符串以任何级别的开口长括号开始,并在同一级别的第一个关闭长括号结束。这种括号中的文字可以运行多行,不解释任何转义序列,并忽略任何其他级别的长括号。它们可以包含除适当级别的右括号之外的任何内容。
简而言之,我正在尝试设计一个正则表达式,它将匹配一个开头的长括号,中间的字符串内容和结束长括号。仅当开口长括号和结束长括号具有相同数量的等号时才会发生匹配,这些符号可以为零或更多。
答案 0 :(得分:5)
好吧,我担心使用正则表达式进行标记对于此任务来说还不够好。正则表达式不够强大。
在jFlex中使用普通正则表达式无法比较'='标记的数量。 Perl会有一个黑客(如上所述,\ 1),但我们不是在谈论编程Perl,而是jFlex lexer。
解决方案是使用\ [= * \ [用于左括号标记,\] = * \]用于右括号标记,然后在上面的层(解析器)中比较它们是否匹配长度。
无论如何,您可以在llex.c中的lua源代码中查看read_long_string(),看看他们是如何在不使用正则表达式的情况下完成的。
答案 1 :(得分:4)
\[(=*)\[.*?\]\1\]
\ 1捕获第一个()。
答案 2 :(得分:3)
\[(=*)\[.*?\]\1\]