我最近开始学习自己的数据分析和机器学习,并快速进入我的第一期。
我有来自存储在JSON中的REST API的数据。我的数据集是一个文件夹,附近有350.000个文本文件,其中包含Riot API匹配端点返回的JSON(我存储了英雄联盟游戏),总计了11GB未压缩的文本文件。文件名是匹配的ID。
显然,我无法将所有数据加载到内存(8GB)中进行分析或使用Scikit.Learn处理它。即使我可以,解析也非常缓慢(获得soloQ游戏的数量,冠军的平均赢率......)。我被告知要将这些数据存储在SQLite数据库中,但我还没决定该怎么做。 SQLite应该没问题,因为未来的分析不需要所有的功能,所以我可以轻松地做SELECT。
最佳方法是什么,或者我之前应该知道什么?我缺少数据分析的基本知识吗?