在算术表达式中解析表达式

时间:2018-05-09 20:44:41

标签: parsing haskell compiler-construction parsec megaparsec

我想解析算术表达式。

这是我当前的解析器:

data AExpr
    = ExprAsAExpr Expr
    | IntConst Integer
    | Neg AExpr
    | ABinary ABinOp AExpr AExpr
    deriving (Show, Eq)

aExpr :: Parser AExpr
aExpr = makeExprParser aTerm aOperators

aTerm :: Parser AExpr
aTerm
    =   parens aExpr
    <|> IntConst <$> integerParser

aOperators :: [[Operator Parser AExpr]]
aOperators =
    [ [Prefix (Neg <$ symbol "-") ]
    , [ InfixL (ABinary Multiply <$ symbol "*")
      , InfixL (ABinary Divide   <$ symbol "/") ]
    , [ InfixL (ABinary Add      <$ symbol "+")
      , InfixL (ABinary Subtract <$ symbol "-") ]
    ]

使用这个我可以正确地解析这个:

1 + 2

生成这样的AST。

(ABinary Add (IntConst 1) (IntConst 2))

我可以解析的另一件事是通用表达式。这些可以是变量,方法调用,三元等等。

E.g。

标识符

varName

这会产生:

(Identifier (Name "varName"))

方法调用:

methodCall()

这会产生:

(MethodCall (Name "methodCall") (BlockExpr []))

这是解析一般表达式的一个例子。

expressionParser :: Parser Expr
expressionParser
    =   methodCallParser
    <|> identifierParser

这很好但我也想解析这里的算术表达式。

expressionParser :: Parser Expr
expressionParser
    =   newClassInstanceParser
    <|> methodCallParser
    <|> AExprAsExpr <$> aExpr
    <|> identifierParser

这意味着使用expressionParser我现在可以解析所有不同的表达式,包括算术表达式。如果它恰好是一个算术表达式,它将被包含在AExprAsExpr中。

问题

我想解析包含其他表达式的算术表达式。

E.g。

x + y

要做到这一点,我最初的想法是更改算术解析器,以便它也解析表达式。

data AExpr
    = ExprAsAExpr Expr
    | IntConst Integer
    | Neg AExpr
    | ABinary ABinOp AExpr AExpr
    deriving (Show, Eq)

aExpr :: Parser AExpr
aExpr = makeExprParser aTerm aOperators

aTerm :: Parser AExpr
aTerm
    =   parens aExpr
    <|> IntConst <$> integerParser
    <|> ExprAsAExpr <$> expressionParser

aOperators :: [[Operator Parser AExpr]]
aOperators =
    [ [Prefix (Neg <$ symbol "-") ]
    , [ InfixL (ABinary Multiply <$ symbol "*")
      , InfixL (ABinary Divide   <$ symbol "/") ]
    , [ InfixL (ABinary Add      <$ symbol "+")
      , InfixL (ABinary Subtract <$ symbol "-") ]
    ]

这个问题是有一个递归循环,aTerm调用表达式解析器,表达式解析器调用aExpr。这导致无限循环。还有一个问题是,所有identifiers现在都将包含在AExprAsExpr内。

在算术表达式中解析表达式的正确方法是什么?

1 个答案:

答案 0 :(得分:4)

编辑我刚才意识到您正在使用makeExpressionParser,我的回答并不适用于此。无论如何,这个答案可能仍然有用吗?

Parsec是一种递归下降解析器,这意味着它无法处理左递归,正如您所看到的那样。您需要将其分解出来,如果语法没有上下文,则可以始终将其分解。您看到此分解的一种方法是为每个优先级生成一个生产。以下是简单算术的示例语法:

expr ::= addExpr
addExpr ::= mulExpr '+' addExpr
          | mulExpr '-' addExpr
          | mulExpr
mulExpr ::= term '*' mulExpr
          | term '/' mulExpr
          | term
term ::= '(' expr ')'
       | number

注意模式:每个生产中的第一个符号调用下一个更具体的符号。然后显式括号允许我们重新进入顶级生产。这通常是递归下降表示运算符优先级的方式。

上述语法只能生成右嵌套表达式。虽然它将接受完全正确的字符串,但是当解释为左关联时,它无法正确解析。特别是,

1 - 2 - 3 - 4

将被解析为

1 - (2 - (3 - 4))

根据我们的惯例,这是不正确的。在一般的递归下降解析器中,你必须做一些技巧才能在这里正确关联。然而,在Parsec中,我们有many个组合器,我们可以利用这些组合器。例如,要解析与左相关的减法,我们可以说

subExpr = foldl1 (-) <$> many1 mulExpr

这里的下一个级别显然是chainl组合器,它们似乎是为了这个目的而设计的(尽管我现在才了解它 - 我猜我应该更多地阅读这些文档)。使用它的一个例子是

addExpr = chainl1 mulExpr oper
    where
    oper = choice [ (+) <$ symbol '+'
                  , (-) <$ symbol '-'
                  ]

我喜欢在Haskell中编写解析器。祝你好运!