我正在尝试将json
个大文件(大约4G)加载为pandas dataframe
,但以下方法不适用于文件> 2G左右。有没有替代方法?
data_dir = 'data.json'
my_data = pd.read_json(data_dir, lines = True)
我尝试ijson
但不知道如何将其转换为dataframe
。
答案 0 :(得分:1)
在这种情况下,将大文档加载到内存中可能不是最佳方法。这种JSON大小可能需要您使用其他方法进行解析。尝试改用流解析器。某些选项
https://pypi.org/project/json-stream-parser/
https://pypi.org/project/ijson/
关键是不要将整个文档加载到内存中。这类似于XML世界中的SAX解析。
我不是python专家,但是,应该已经有一个不错的库可以为您完成此工作。