将ast.Num转换为decimal.Decimal以获得python中的精度

时间:2016-02-15 09:57:10

标签: python floating-point decimal abstract-syntax-tree

我正在编写一个解析器来解析简单的算术公式:它只需要(和限制)来支持数字和变量的+ - * /。例如:

100.50*num*discount

它基本上用于计算产品价格。

这是用python编写的,为了简单起见,我想使用python自己的解析器。这个想法首先将输入解析为ast,然后在ast上将ast的节点类型限制在一个小子集中,例如:ast.BinOpast.Addast.Num,{{1}等等...

目前它运作良好,除了ast中的浮点数不精确。所以我想将ast的ast.Name节点转换为某些ast.Num节点。但问题是:ast.Call(func=ast.Name(id='Decimal'), ...)只包含一个ast.Num字段,该字段是已经解析的浮点数。在源代码中获取原始数字文字并不容易:How to get source corresponding to a Python AST node?

有什么建议吗?

1 个答案:

答案 0 :(得分:5)

我建议采用两步法:在第一步中,使用Python的tokenize模块将源中的所有浮点数字文字转换为'Decimal(my_numeric_literal)'形式的字符串。然后你可以按照你建议的方式处理AST。

令牌化模块documentation中的第一步甚至还有一个配方。为了避免仅链接答案,这里是该配方的代码(以及配方本身缺少的必要导入):

from cStringIO import StringIO
from tokenize import generate_tokens, untokenize, NAME, NUMBER, OP, STRING

def is_float_literal(s):
    """Identify floating-point literals amongst all numeric literals."""
    if s.endswith('j'):
        return False  # Exclude imaginary literals.
    elif '.' in s:
        return True  # It's got a '.' in it and it's not imaginary.
    elif s.startswith(('0x', '0X')):
        return False  # Must be a hexadecimal integer.
    else:
        return 'e' in s  # After excluding hex, 'e' must indicate an exponent.

def decistmt(s):
    """Substitute Decimals for floats in a string of statements.

    >>> from decimal import Decimal
    >>> s = 'print +21.3e-5*-.1234/81.7'
    >>> decistmt(s)
    "print +Decimal ('21.3e-5')*-Decimal ('.1234')/Decimal ('81.7')"

    >>> exec(s)
    -3.21716034272e-007
    >>> exec(decistmt(s))
    -3.217160342717258261933904529E-7

    """
    result = []
    g = generate_tokens(StringIO(s).readline)   # tokenize the string
    for toknum, tokval, _, _, _  in g:
        if toknum == NUMBER and is_float_literal(tokval):
            result.extend([
                (NAME, 'Decimal'),
                (OP, '('),
                (STRING, repr(tokval)),
                (OP, ')')
            ])
        else:
            result.append((toknum, tokval))
    return untokenize(result)

原始配方通过检查值中是否存在'.'来识别浮点文字。这不完全是防弹,因为它排除了像'1e10'这样的文字,并且包含像1.0j这样的虚构文字(你可能想要排除它)。我在上面的is_float_literal中使用我自己的版本替换了该支票。

在你的示例字符串上尝试这个,我得到了这个:

>>> expr = '100.50*num*discount'
>>> decistmt(expr)
"Decimal ('100.50')*num *discount "

...您现在可以像以前一样解析为AST树:

>>> tree = ast.parse(decistmt(expr), mode='eval')
>>> # walk the tree to validate, make changes, etc.
... 
>>> ast.dump(tree)
"Expression(body=BinOp(left=BinOp(left=Call(func=Name(id='Decimal', ...

最后评估:

>>> from decimal import Decimal
>>> locals = {'Decimal': Decimal, 'num': 3, 'discount': Decimal('0.1')}
>>> eval(compile(tree, 'dummy.py', 'eval'), locals)
Decimal('30.150')