我正在尝试解析Python上的huge JSON文件(大约14GB)来进行我正在进行的一些数据挖掘研究。
问题在于,当我使用内置的JSON模块时,它会尝试在内存中加载完整的文件,直到它用完为止。
当然,我可以找到一台可以将这个文件放在RAM上的机器,事实上我已经有了,但这不是一个很好的方法。
我尝试过:
import json
with open('myfile.json', 'r'):
loaded_json = json.load(file)
# ...do stuff
我想要的是将这个文件与list和dicts的常规JSON接口一起使用的方法,但是这种方式应该直接从磁盘或内存块处理文件。
谢谢!