我一直在努力为一个(非常)简单的语言创建一个解析器,如下所示:
block{you are a cow too blkA{ but maybe not} and so is he} hear me moo blockZ{moooooo}
我可以使用正则表达式将其分开:
.*?[^ ]*?\\{
.*?\\}
基本上会继续吃字符,直到找到匹配[^ ]*?\\{
或\\}
的字符:块的开头或结尾。我的问题是,如果我想使用Scala的Parser Combinators,我该怎么做?我目前有:
def expr: Parser[Any] = (block | text)+
def text = ".+?".r
def block = "[^ ]*?\\{".r ~ expr ~ "}"
但这不起作用:
parsed: List(b, l, o, c, k, {, y, o, u, a, r, e, a, c, o, w, t, o, o, b, l, k, A, {, b, u, t, m, a, y, b, e, n, o, t, }, a, n, d, s, o, i, s, h, e, }, h, e, a, r, m, e, m, o, o)
似乎block
解析器没有触发,因此text
解析器被重复触发。但当我删除text
解析器时:
def expr: Parser[Any] = (block)+
我明白了:
failure: string matching regex `[^ ]*?\{' expected but `y' found
block{you are a cow too blkA{ but maybe not} and so is he} hear me moo
^
显然block
解析器 工作,除非text
解析器存在。发生了什么?为了这么基本的语法,是否有一种“正确”的方式?
编辑:更改了标题,因为仅仅因为解决问题而不再那么不情愿
编辑:我现在有这个:def expr: Parser[Any] = (block | text)+
def text = "[^\\}]".r
def block = "[^ ]*?\\{".r ~ expr ~ "}"
这背后的逻辑是,对于每个角色,它测试它是否是块的开始。如果不是,则移动到下一个字符。这给了我:
parsed: List(((block{~List(y, o, u, a, r, e, a, c, o, w, t, o, o, ((blkA{~List(b, u, t, m, a, y, b, e, n, o, t))~}), a, n, d, s, o, i, s, h, e))~}), h, e, a, r, m, e, m, o, o)
这是正确的。它虽然逐个解析非块字符,这可能是一个性能问题(我认为?)。有没有办法一次解析所有这些非块字符并将它们留在一个大字符串中?
答案 0 :(得分:2)
问题是text
正在消耗所有结束花括号(}
)。它是这样的:
expr -> block -> expr -> text.+ (until all input is consumed)
此时,它退出expr
并尝试解析不存在的}
,失败,并在第一个text
上回退到expr
。< / p>
您可以使用log
查看解析时发生的情况。