2.2GB JSON文件解析不一致

时间:2013-10-07 01:23:32

标签: python json unicode utf-8

我正在尝试解码一个大的utf-8 json文件(2.2 GB)。我像这样加载文件:

f = codecs.open('output.json', encoding='utf-8')
data = f.read()

如果我尝试执行以下操作:json.loadjson.loadsjson.JSONDecoder().raw_decode,我会收到错误消息:

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-40-fc2255017b19> in <module>()
----> 1 j = jd.decode(data)

/usr/lib/python2.7/json/decoder.pyc in decode(self, s, _w)
    367         end = _w(s, end).end()
    368         if end != len(s):
--> 369             raise ValueError(errmsg("Extra data", s, end, len(s)))
    370         return obj
    371

ValueError: Extra data: line 1 column -2065998994 - line 1 column 2228968302
    (char -2065998994 - 2228968302)


uname -m显示x86_64

> python -c 'import sys;print("%x" % sys.maxsize, sys.maxsize > 2**32)'
('7fffffffffffffff', True)`

所以我应该是64位,整数大小应该不是问题

但是,如果我跑:

jd = json.JSONDecoder()
len(data) # 2228968302
j = jd.raw_decode(data)
j[1] # 2228968302 

raw_decode返回的元组中的第二个值是字符串的结尾,因此raw_decode似乎解析整个文件,最后似乎没有垃圾。

那么,我应该对json采取不同的做法吗? raw_decode实际解码整个文件吗?为什么json.load(s)失败?

1 个答案:

答案 0 :(得分:10)

我将此添加为评论,但评论中的格式设置功能太有限了。

盯着源代码,

raise ValueError(errmsg("Extra data", s, end, len(s)))

调用此函数:

def errmsg(msg, doc, pos, end=None):
    ...
    fmt = '{0}: line {1} column {2} - line {3} column {4} (char {5} - {6})'
    return fmt.format(msg, lineno, colno, endlineno, endcolno, pos, end)

格式的(char {5} - {6})部分是您显示的错误消息的一部分:

(char -2065998994 - 2228968302)

因此,在errmsg()中,pos为-2065998994,end为2228968302.看哪! ; - ):

>>> pos = -2065998994
>>> end = 2228968302
>>> 2**32 + pos
2228968302L
>>> 2**32 + pos == end
True

也就是说,posend是&#34;真的&#34;相同。从调用errmsg()的位置开始,这意味着endlen(s)实际上也是相同的 - 但end被视为32位有符号整数。 end反过来来自正则表达式匹配对象的end()方法。

因此,真正的问题似乎是正则表达式引擎中的32位限制/假设。我鼓励你open a bug report

稍后:回答你的问题,是的,raw_decode()正在解码整个文件。其他方法调用 raw_decode(),但之后添加(失败!)健全性检查。