执行探索性数据分析是任何机器学习项目的第一步,我主要使用熊猫来使用适合内存的数据集执行数据探索...但是我想知道如何执行数据清理,处理丢失的数据并数据离群值,单个变量图,特征如何影响标签,相关性等的密度图等
Pandas易于使用Python进行数据分析。但是由于系统内存有限,我发现难以处理Pandas中的多个较大数据帧。
对于大于RAM ... 100 GB的数据集
我看过一些教程,在这些教程中,他们使用spark根据规则过滤掉并生成适合内存的数据框...最终总有一些数据完全驻留在内存中,但是我想知道如何处理大数据集并进行探索性数据分析
另一个挑战是可视化大数据以进行探索性数据分析...如果适合内存,可以使用seaborn或matplotlib之类的包轻松实现,但如何对大数据执行
答案 0 :(得分:2)
要放置一些具体的东西:
通常,您会希望通过聚合,采样等方式将数据减少到足够小的程度,以使直接可视化变得有意义
有些工具可以直接处理大于内存的数据(Dask)以创建视觉效果。一个很好的链接是:http://pyviz.org/tutorial/10_Working_with_Large_Datasets.html