我一直试图找出我正在设计的语言的基本骨架,并且我尝试使用Parsimonious来做解析我。截至目前,我已经宣布了以下语法:
grammar = Grammar(
"""
program = expr*
expr = _ "{" lvalue (rvalue / expr)* "}" _
lvalue = _ ~"[a-z0-9\\-]+" _
rvalue = _ ~".+" _
_ = ~"[\\n\\s]*"
"""
)
当我尝试输出像"{ do-something some-argument }"
这样的简单输入字符串的结果AST时:
print(grammar.parse("{ do-something some-argument }"))
Parsimonious决定拒绝它,然后给我这个有点神秘的错误:
Traceback (most recent call last): File "tests.py", line 13, in <module> print(grammar.parse("{ do-something some-argument }")) File "/usr/local/lib/python2.7/dist-packages/parsimonious/grammar.py", line 112, in parse return self.default_rule.parse(text, pos=pos) File "/usr/local/lib/python2.7/dist-packages/parsimonious/expressions.py", line 109, in parse raise IncompleteParseError(text, node.end, self) parsimonious.exceptions.IncompleteParseError: Rule 'program' matched in its entirety, but it didn't consume all the text. The non-matching portion of the text begins with '{ do-something some-' (line 1, column 1).
起初我认为这可能是与我的空白规则_
相关的问题,但是在某些地方删除空白规则的尝试失败后,我仍然遇到同样的错误。< / p>
我尝试过在网上搜索,但我发现这些似乎与远程相关的是this question,这对我没有任何帮助。
我的语法错了吗?我没有以正确的方式解析输入吗?如果有人可以解决这个问题,我们将非常感激。
答案 0 :(得分:5)
我与Parsimonious的专家相距甚远,但我认为问题是~".+"
贪婪地匹配输入字符串的整个剩余部分,没有任何内容与生产的其余部分相匹配。我最初通过将rvalue
的正则表达式更改为~"[a-z0-9\\-]+"
来测试该想法,与lvalue
的正则表达式相同。现在它解析,并且(令人敬畏地)区分两个相同定义的标记lvalue
和rvalue
之间的上下文。
from parsimonious.grammar import Grammar
grammar = Grammar(
"""
program = expr*
expr = _ "{" lvalue (rvalue / expr)* "}" _
lvalue = _ ~"[a-z0-9\\-]+" _
rvalue = _ ~"[a-z0-9\\-]+" _
_ = ~"[\\n\\s]*"
"""
)
print(grammar.parse( "{ do-something some-argument }"))
如果你的意思是rvalue
匹配任何非空白字符序列,你需要更像这样的东西:
rvalue = _ ~"[^\\s\\n]+" _
但是哎呀!
{ foo bar }
"}"
是一个结束大括号,但它也是一个或多个非空白字符的序列。是"}"
还是rvalue
?语法说下一个标记可以是其中之一。其中一种解释是可解析的而另一种解释不是,但Parsimonious只是说它的菠菜和它的地狱。我不知道解析专家是否会认为这是一种解决歧义的合法方法(例如,这样的语法可能会导致两种可能的解释都解析的情况),或者实际上会有多么可行要实施。在任何情况下,Parsimonious都没有打那个电话。
所以我们需要在大括号问题上击退寄宿生。我认为这个语法符合你的要求:
from parsimonious.grammar import Grammar
grammar = Grammar(
"""
program = expr*
expr = _ "{" lvalue (expr / rvalue)* "}" _
lvalue = _ ~"[a-z0-9\\-]+" _
rvalue = _ ~"[^{}\\n\\s]+" _
_ = ~"[\\n\\s]*"
"""
)
print(grammar.match( "{ do-something some-argument 23423 {foo bar} &^%$ }"))
我也排除了开放的大括号,因为您希望这个字符串如何标记化?
{foo bar{baz poo}}
我希望
"{" "foo" "bar" "{" "baz" "poo" "}" "}"
...因为"poo}"
需要标记为"poo"
"}"
,而"{foo"
应该标记为"{"
"foo"
,然后将bar{baz
视为"bar{baz"
或"bar{"
"baz"
deranged 违反直觉。
现在我记得我对yacc的痛恨让我对它有一种痴迷。