Python:ijson.parse(in_file)vs json.load(in_file)

时间:2017-01-01 22:41:59

标签: python json parsing large-files ijson

我正在尝试在python中读取一个大的JSON文件(~2GB)。

以下代码适用于小文件但由于第二行上的MemoryError而无法处理大文件。

in_file = open(sys.argv[1], 'r')
posts = json.load(in_file)

我看了similar posts,几乎所有人都建议使用ijson,所以我决定尝试一下。

in_file = open(sys.argv[1], 'r')
posts = list(ijson.parse(in_file))

这处理读取大文件大小但是ijson.parse没有像json.load那样返回JSON对象,所以其余的代码都没有工作

  

TypeError:元组索引必须是整数或切片,而不是str

如果我打印出来"帖子"当使用json.load时,o / p看起来像普通的JSON

[{"Id": "23400089", "PostTypeId": "2", "ParentId": "23113726", "CreationDate": ... etc

如果我打印出来"帖子"在使用ijson.parse之后,o / p看起来像一个哈希映射

[["", "start_array", null], ["item", "start_map", null], 
 ["item", "map_key", "Id"], ["item.Id", "string ... etc

我的问题: 我不想更改我的其余代码,所以我想知道是否还有将ijson.parse(in_file)的o / p转换回JSON对象,以便它完全相同如果我们使用json.load(in_file)

1 个答案:

答案 0 :(得分:0)

也许这对您有用:

in_file = open(sys.argv[1], 'r')
posts = []
data = ijson.items(in_file, 'item')
for post in data:
    posts.append(post)