应用错误收集

我最近开始学习自己的数据分析和机器学习，并快速进入我的第一期。

我有来自存储在JSON中的REST API的数据。我的数据集是一个文件夹，附近有350.000个文本文件，其中包含Riot API匹配端点返回的JSON（我存储了英雄联盟游戏），总计了11GB未压缩的文本文件。文件名是匹配的ID。

显然，我无法将所有数据加载到内存（8GB）中进行分析或使用Scikit.Learn处理它。即使我可以，解析也非常缓慢（获得soloQ游戏的数量，冠军的平均赢率......）。我被告知要将这些数据存储在SQLite数据库中，但我还没决定该怎么做。 SQLite应该没问题，因为未来的分析不需要所有的功能，所以我可以轻松地做SELECT。

最佳方法是什么，或者我之前应该知道什么？我缺少数据分析的基本知识吗？

我应该如何使用Scikit.Learn处理大型JSON数据集？

0 个答案: