Question

我正在解析包含json对象的文件。问题是某些文件在一行中有多个对象。 e.g：

{"data1": {"data1_inside": "bla{bl\"a"}}{"data1": {"data1_inside": "blabla["}}{"data1": {"data1_inside": "bla{bla"}}{"data1": {"data1_inside": "bla["}}

我已经创建了一个函数，在没有左括号的情况下尝试解析子字符串，但值中可能有大括号。我试过通过检查引号的开头和结尾来跳过值，但是也有带有转义引号的值。关于如何处理这个的任何想法？

我的尝试：

def get_lines(data):
    lines = []
    open_brackets = 0
    start = 0
    is_comment = False
    for index, c in enumerate(data):
        if c == '"':
            is_comment = not is_comment
        elif not is_comment:
            if c == '{':
                if not open_brackets:
                    start = index
                open_brackets += 1

            if c == '}':
                open_brackets -= 1
                if not open_brackets:
                    lines.append(data[start: index+1])

    return lines

Answer 1

问题在于，您无法通过任何字符或字符序列合理地拆分，因为该序列始终可以在字符串中显示为字段值，例如'{"data1": "}{"}{"data2":"foo"}'。

如果我们假设您的文件/字符串中有效JSON的每个子字符串必须以'{'开头并以'}'结尾（当然，在一般情况下，我们也必须处理'['和']'字符），这是一种蛮力方法：

import json

with open('input.txt') as inp:
    s = inp.read().strip()

jsons = []

start, end = s.find('{'), s.find('}')
while True:
    try:
        jsons.append(json.loads(s[start:end + 1]))
    except ValueError:
        end = end + 1 + s[end + 1:].find('}')
    else:
        s = s[end + 1:]
        if not s:
            break
        start, end = s.find('{'), s.find('}')

for x  in jsons:
    print(x)

演示：

$ cat input.txt 
{"data1": {"data1_inside": "bla{bl\"a"}}{"data1": {"data1_inside": "blabla["}}{"data1": {"data1_inside": "bla{bla"}}{"data1": {"data1_inside": "bla["}}
$ python json_linereader.py 
{u'data1': {u'data1_inside': u'bla{bl"a'}}
{u'data1': {u'data1_inside': u'blabla['}}
{u'data1': {u'data1_inside': u'bla{bla'}}
{u'data1': {u'data1_inside': u'bla['}}

s = '{"data1": "}{"}{"data2":"foo"}'

的输出

{'data1': '}{'}
{'data2': 'foo'}

我还没有通过单元测试检查此代码的所有可能性，但这个想法应该是明确的。

Answer 2

简单但不太健壮的版本：

>>> import re
>>> s = r'{"data1": {"data1_inside": "bla{bl\"a"}}{"data1": {"data1_inside": "blabla["}}{"data1": {"data1_inside": "bla{bla"}}{"data1": {"data1_inside": "bla["}}'
>>> r = re.split('(\{.*?\})(?= *\{)', s)
['', '{"data1": {"data1_inside": "bla{bl\\"a"}}', '', '{"data1": {"data1_inside": "blabla["}}', '', '{"data1": {"data1_inside": "bla{bla"}}', '{"data1": {"data1_inside": "bla["}}']

如果字符串

中包含}{，则会失败

正如其他人建议的那样，您可以尝试解析每个元素。如果它无效，那么我们应该检查这个元素和下一个元素。

请注意，r是上述代码的结果

accumulator = ''
res = []
for subs in r:
    accumulator += subs
    try:
        res.append(json.loads(accumulator))
        accumulator = ''
    except:
        pass

Answer 3

你可以使用json raw_decoder！这允许在第一个json对象之后读取带有额外数据的json字符串。使用的一个例子是：

>>> dec = json.JSONDecoder()
>>> json_str = '{"data": "Foo"}{"data": "BarBaz"}{"data": "Qux"}'
>>> dec.raw_decode(json_str)
({u'data': u'Foo'}, 15)
>>> dec.raw_decode(json_str[15:])
({u'data': u'BarBaz'}, 18)
>>> dec.raw_decode(json_str[33:])
({u'data': u'Qux'}, 15)

元组的第一部分是json对象，第二部分是读取时使用了多少字符串。因此，这样的循环将允许您遍历字符串中的所有json对象。

dec = json.JSONDecoder()
pos = 0
while not pos == len(str(json_str)):
    j, json_len = dec.raw_decode(str(json_str)[pos:])
    pos += json_len
    # Do something with the json j here

解析一行中的多个json对象

3 个答案: