Question

使用Scala解析器组合器（有效）解析C风格的多行注释（即/* ... */）的最佳方法是什么？

在我参与的项目中，我们解析了类似C语言的编程语言，并希望支持多行注释。我们使用StandardTokenParsers的子类，它已经处理了这样的注释（通过StdLexical。但是，该类仅适用于相当短的多行注释，否则会耗尽堆栈空间。

我们也尝试提供我们自己的空白定义，以提高效率。我们使用RegexParser（受another question on StackOverflow启发）如下：

class Parser extends StandardTokenParsers {

  override val lexical = new StdLexical {
    def rp: RegexParsers = new RegexParsers {}
    override val whitespace: Parser[Any] = rp.regex("""(\s|//.*|(?m)/\*(\*(?!/)|[^*])*\*/)*""".r).asInstanceOf[Parser[Any]]
  }

  // ...

}

这稍微改善了这种情况，但如果评论超过几十行，仍会导致堆栈溢出。任何想法如何改善这个？

Answer 1

通过使用解析器而不是使用正则表达式定义空格跳过，我们在这类问题上取得了一些成功。有关支持代码，请参阅我们的Kiama ParserUtilities.scala中的WhitespaceParser特征。

大多数问题都是覆盖正常的正则表达式空格处理，并将新的解析器绑定到文字和正则表达式组合器（我们通常不使用令牌解析器）。有关用法，请参阅one of our examples，在本例中为处理嵌套注释。

Scala Parser Combinators：有效解析C风格的评论

1 个答案: