应用错误收集

时间：2018-07-11 06:28:54

标签： python json pandas csv

对于我的项目，我必须解析两个大的JSON文件，一个是19.7 GB，另一个是66.3 GB。 JSON数据的结构太复杂。一级字典，第二级字典可能还有列表或字典。这些都是网络日志文件，我必须解析这些日志文件并进行分析。建议将如此大的JSON文件转换为CSV吗？

当我尝试将较小的19.7 GB JSON文件转换为CSV文件时，它具有大约2000列和50万行。我正在使用Pandas解析这些数据。我没有触摸较大的文件66.3 GB。我是否朝着正确的方向前进？当我转换更大的文件时，将出现多少列和行，这是毫无头绪的。

请提出任何其他好的选择（如果存在）。还是建议直接从JSON文件读取并在其上应用OOP概念。

答案 0 :(得分：1)

您可能想使用dask，它的语法与pandas类似，仅是并行的（实质上是许多并行的pandas数据帧）且懒惰的（这有助于避免ram限制）。

您可以使用read_json方法，然后在dataframe上进行计算。