在Python中解析/处理巨大的JSON文件的有效方法是什么?

时间:2018-07-11 06:28:54

标签: python json pandas csv

对于我的项目,我必须解析两个大的JSON文件,一个是19.7 GB,另一个是66.3 GB。 JSON数据的结构太复杂。一级字典,第二级字典可能还有列表或字典。 这些都是网络日志文件,我必须解析这些日志文件并进行分析。 建议将如此大的JSON文件转换为CSV吗?

当我尝试将较小的19.7 GB JSON文件转换为CSV文件时,它具有大约2000列和50万行。我正在使用Pandas解析这些数据。 我没有触摸较大的文件66.3 GB。我是否朝着正确的方向前进? 当我转换更大的文件时,将出现多少列和行,这是毫无头绪的。

请提出任何其他好的选择(如果存在)。 还是建议直接从JSON文件读取并在其上应用OOP概念。

我已经阅读了以下文章:article 1 from Stack Overflowarticle 2 from Quora

1 个答案:

答案 0 :(得分:1)

您可能想使用dask,它的语法与pandas类似,仅是并行的(实质上是许多并行的pandas数据帧)且懒惰的(这有助于避免ram限制)。

您可以使用read_json方法,然后在dataframe上进行计算。