解析器失败 - pyparsing

时间:2015-11-07 21:32:59

标签: python parsing context-free-grammar pyparsing

我正在尝试创建一个将一些数学转换为C的解析器。这归结为必须找到形式... ^ x的嵌套表达式,并用pow(...,x)替换它(这里) x是数字)。

一些假设:

  • ^仅出现在指示取幂的位置
  • “x”将始终为实数,如C
  • 所示
  • 在指数^之前,......将是括号中的某种变量,数字或分组表达式。变量将是带有(可能)下划线的字母数字字符串。

如果我错过了某些内容,我可以澄清更多的假设(只是问一下)。

我的代码如下所示,以及失败的示例。为什么这会失败?

代码:

from pyparsing include *
def parse(s):
    identifier = Regex(r'-?[a-zA-Z0-9_]+')
    real = Regex(r'-?[0-9]+(\.?[0-9]+)?(e-?[0-9]+)?')
    oper = Regex(r'[\*\+/-]-?')
    #oper = oneOf("* + - /")

    # define arithOperand as a Forward, since it could contain nested power expression
    arithOperand = Forward()
    arithExpr = arithOperand + ZeroOrMore(oper + arithOperand)
    groupedArithExpr = '(' + arithExpr + ')'

    # define expression for x^y, where x could be any kind of arithmetic term
    powerOp = Literal('^')
    powerExpr = (groupedArithExpr|real|identifier) + powerOp + real #order matters?
    powerExpr.setParseAction(lambda tokens: 'pow(%s,%s)' % (tokens[0], tokens[2]))

    # now define the possible expressions for arithOperand, including a powerExpr
    arithOperand <<= powerExpr | real | identifier | groupedArithExpr

    # convert parsed list of strings to a single string
    groupedArithExpr.setParseAction(''.join)

    return arithExpr.transformString(s)

导致失败的字符串:

s = ((s9*(s4*s6+c4*c6*s5)-c5*c6*c9)*(-(c4*s6-c6*s4*s5)*(x1*(1.0/2.0)+BASE_ORIGIN_Z*(s4*s6+c4*c6*s5)+(c4*s6-c6*s4*s5)*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))+BASE_ORIGIN_X*c5*c6)+(c4*c6+s4*s5*s6)*(x2*(1.0/2.0)-BASE_ORIGIN_Z*(c6*s4-c4*s5*s6)-(c4*c6+s4*s5*s6)*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))+BASE_ORIGIN_X*c5*s6)+c5*s4*(x3*(1.0/2.0)-BASE_ORIGIN_X*s5+BASE_ORIGIN_Z*c4*c5-c5*s4*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))))+(c4*s6-c6*s4*s5)*((c9*s5+c4*c5*s9)*(x3*(1.0/2.0)-BASE_ORIGIN_X*s5+BASE_ORIGIN_Z*c4*c5-c5*s4*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0)))+(s9*(s4*s6+c4*c6*s5)-c5*c6*c9)*(x1*(1.0/2.0)+BASE_ORIGIN_Z*(s4*s6+c4*c6*s5)+(c4*s6-c6*s4*s5)*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))+BASE_ORIGIN_X*c5*c6)-(s9*(c6*s4-c4*s5*s6)+c5*c9*s6)*(x2*(1.0/2.0)-BASE_ORIGIN_Z*(c6*s4-c4*s5*s6)-(c4*c6+s4*s5*s6)*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))+BASE_ORIGIN_X*c5*s6)))^2

这里的指数不会转换为pow,整个输入表达式保持不变,没有任何变化。我的解析器出了什么问题?

1 个答案:

答案 0 :(得分:1)

我认为你唯一缺少的是你没有处理领先的一元' - '运算符。这可以使用:

轻松地合并到您的arithOperand表达式中
arithOperand <<= Optional('-') + (powerExpr | real | identifier | groupedArithExpr)

进行此更改后,您的代码会生成此输出(不包含'^'运算符):

pow
  (
    (
      (s9*
        (s4*s6+c4*c6*s5)
      -c5*c6*c9)
    *
      (-
        (c4*s6-c6*s4*s5)
      *
        (x1*pow
          (
            (1.0/2.0)
          ,3)
        +BASE_ORIGIN_Z*
          (s4*s6+c4*c6*s5)
        +
          (c4*s6-c6*s4*s5)
        *
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        +BASE_ORIGIN_X*c5*c6)
      +
        (c4*c6+s4*s5*s6)
      *
        (x2*
          (1.0/2.0)
        -BASE_ORIGIN_Z*
          (c6*s4-c4*s5*s6)
        -
          (c4*c6+s4*s5*s6)
        *
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        +BASE_ORIGIN_X*c5*s6)
      +c5*s4*
        (x3*
          (1.0/2.0)
        -BASE_ORIGIN_X*s5+BASE_ORIGIN_Z*c4*c5-c5*s4*
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        )
      )
    +
      (c4*s6-c6*s4*s5)
    *
      (
        (c9*s5+c4*c5*s9)
      *
        (x3*
          (1.0/2.0)
        -BASE_ORIGIN_X*s5+BASE_ORIGIN_Z*c4*c5-c5*s4*
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        )
      +
        (s9*
          (s4*s6+c4*c6*s5)
        -c5*c6*c9)
      *
        (x1*
          (1.0/2.0)
        +BASE_ORIGIN_Z*
          (s4*s6+c4*c6*s5)
        +
          (c4*s6-c6*s4*s5)
        *
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        +BASE_ORIGIN_X*c5*c6)
      -
        (s9*
          (c6*s4-c4*s5*s6)
        +c5*c9*s6)
      *
        (x2*
          (1.0/2.0)
        -BASE_ORIGIN_Z*
          (c6*s4-c4*s5*s6)
        -
          (c4*c6+s4*s5*s6)
        *
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        +BASE_ORIGIN_X*c5*s6)
      )
    )
  ,2)

编辑:(一些化妆品清理)

为了将操作数保持为单个可评估组,您可能最好使用:

进行定义
baseArithOperand = powerExpr | real | identifier | groupedArithExpr
arithOperand <<= Group('-' + baseArithOperand) | baseArithOperand 

此外,添加一元减号将允许您删除添加到实际和标识符的前导' - '。

关于“订单是否重要”的问题 - 是的。幸运的是,您已将powerExpr置于groupsArithExpr之前,这是唯一可能导致问题的两种选择。如果这两个的顺序相反,那么我认为powerExprs永远不会被正确评估,因为leading()-grouped表达式将使用groupedArithExpr表达式进行解析,在powerExpr的后面留下一个解析错误'^ '性格。您可以从'|'更改运算符(“匹配优先”)到'^'运算符(“匹配最长”),这将强制评估所有备选项并选择最长匹配。但是在递归语法中,“匹配最长”可以非常缓慢地运行,甚至可以永远递归,所以我鼓励人们设计“先匹配”。

EDIT2:

别介意Group,我忘了你刚刚在这里做了transformString - 只要坚持你的原创:

arithOperand <<= Optional('-') + (powerExpr | real | identifier | groupedArithExpr)

但仔细观察,我现在看到标识符真的过于宽泛,并且会匹配整数和标识符。最好在这里使用2参数Word(并且不要担心速度 - Word将在内部构建并使用正则表达式进行匹配):

identifier = Word(alphas, alphanums+'_') # not Regex(r'[a-zA-Z0-9_]+')
real = Regex(r'\d+(\.\d*)?([Ee][+-]?\d+)?')
oper = oneOf("* + - /")

EDIT3:为了您的方便,这里是我写的一个函数,用于缩进您的怪异例子:

def output_nested_parens(s):
    out = ''
    indent = ''
    for c in s:
        if c == '(':
            indent += '  '
            out += '\n' + indent
            out += c
        elif c == ')':
            indent = indent[2:]
            out += c
            out += '\n' + indent
        else:
            out += c
    return out