如何使用Lark解析无效的JSON?

时间:2019-01-16 19:03:11

标签: python json parsing grammar lark-parser

让我们开始考虑使用百灵鸟一个简单的json解析器:

import sys

from lark import Lark, Transformer, v_args

json_grammar = r"""
    ?start: value

    ?value: object
          | array
          | string
          | SIGNED_NUMBER      -> number
          | "true"             -> true
          | "false"            -> false
          | "null"             -> null

    array  : "[" [value ("," value)*] "]"
    object : "{" [pair ("," pair)*] "}"
    pair   : string ":" value

    string : ESCAPED_STRING

    %import common.ESCAPED_STRING
    %import common.SIGNED_NUMBER
    %import common.WS

    %ignore WS
"""


class TreeToJson(Transformer):
    @v_args(inline=True)
    def string(self, s):
        return s[1:-1].replace('\\"', '"')

    array = list
    pair = tuple
    object = dict
    number = v_args(inline=True)(float)

    def null(self, _): return None

    def true(self, _): return True

    def false(self, _): return False


if __name__ == '__main__':
    json_parser = Lark(json_grammar, parser='lalr', lexer='standard', transformer=TreeToJson())
    parse = json_parser.parse

    dct = parse('''
        {
            "empty_object" : {},
            "empty_array"  : [],
            "booleans"     : { "YES" : true, "NO" : false },
            "numbers"      : [ 0, 1, -2, 3.3, 4.4e5, 6.6e-7 ],
            "strings"      : [ "This", [ "And" , "That", "And a \\"b" ] ],
            "nothing"      : null
        }
    ''')
    print(dct)

以上示例取自examples官方网站,它能够解析有效的json。

到目前为止很好,但我的问题是如何扩展此语法和转换器,使其也能够解析无效的json字符串,例如以下内容:

dct = parse('''
    [
        // Item1
        { "key1": "value1" },
        // Item2
        { "key2": "value2", "key3": ["a","b",] },
        // Item3
        { "key4": [{"key5":"value5"},] },
    ]
''')

我的主要目标是能够解析SublimeText资产(它们是json的超集),ST在幕后使用sublime_api.decode_value ...但是此功能是封闭源代码,因此我无法使用它。另外,我没有找到任何可以直接使用的pypi库,因此我决定最好的机会是尝试编写自己的自定义“无效json”解析器。

1 个答案:

答案 0 :(得分:2)

demjson库非常擅长解析可疑的json:

import demjson

str = '''
    [
        // Item1
        { "key1": "value1" },
        // Item2
        { "key2": "value2", "key3": ["a","b",] },
        // Item3
        { "key4": [{"key5":"value5"},] },
    ]
'''

print(demjson.decode(str))

结果:

[{'key1': 'value1'}, {'key2': 'value2', 'key3': ['a', 'b']}, {'key4': [{'key5': 'value5'}]}]