使用Scala解析器组合器(有效)解析C风格的多行注释(即/* ... */
)的最佳方法是什么?
在我参与的项目中,我们解析了类似C语言的编程语言,并希望支持多行注释。我们使用StandardTokenParsers
的子类,它已经处理了这样的注释(通过StdLexical
。但是,该类仅适用于相当短的多行注释,否则会耗尽堆栈空间。
我们也尝试提供我们自己的空白定义,以提高效率。我们使用RegexParser
(受another question on StackOverflow启发)如下:
class Parser extends StandardTokenParsers {
override val lexical = new StdLexical {
def rp: RegexParsers = new RegexParsers {}
override val whitespace: Parser[Any] = rp.regex("""(\s|//.*|(?m)/\*(\*(?!/)|[^*])*\*/)*""".r).asInstanceOf[Parser[Any]]
}
// ...
}
这稍微改善了这种情况,但如果评论超过几十行,仍会导致堆栈溢出。任何想法如何改善这个?
答案 0 :(得分:7)
通过使用解析器而不是使用正则表达式定义空格跳过,我们在这类问题上取得了一些成功。有关支持代码,请参阅我们的Kiama ParserUtilities.scala中的WhitespaceParser特征。
大多数问题都是覆盖正常的正则表达式空格处理,并将新的解析器绑定到文字和正则表达式组合器(我们通常不使用令牌解析器)。有关用法,请参阅one of our examples,在本例中为处理嵌套注释。