加载大型Json文件的另一种方法

时间:2017-07-11 07:43:50

标签: python json pandas large-files ijson

我正在尝试将json个大文件(大约4G)加载为pandas dataframe,但以下方法不适用于文件> 2G左右。有没有替代方法?

data_dir = 'data.json' my_data = pd.read_json(data_dir, lines = True)

我尝试ijson但不知道如何将其转换为dataframe

1 个答案:

答案 0 :(得分:1)

在这种情况下,将大文档加载到内存中可能不是最佳方法。这种JSON大小可能需要您使用其他方法进行解析。尝试改用流解析器。某些选项

https://pypi.org/project/json-stream-parser/

https://pypi.org/project/ijson/

关键是不要将整个文档加载到内存中。这类似于XML世界中的SAX解析。

我不是python专家,但是,应该已经有一个不错的库可以为您完成此工作。