如果我的数据无法容纳在内存中,请执行EDA并将其可视化?我的数据集大小是200gigs

时间:2018-08-03 00:27:35

标签: pyspark data-visualization plotly dask holoviews

执行探索性数据分析是任何机器学习项目的第一步,我主要使用熊猫来使用适合内存的数据集执行数据探索...但是我想知道如何执行数据清理,处理丢失的数据并数据离群值,单个变量图,特征如何影响标签,相关性等的密度图等

Pandas易于使用Python进行数据分析。但是由于系统内存有限,我发现难以处理Pandas中的多个较大数据帧。

对于大于RAM ... 100 GB的数据集

我看过一些教程,在这些教程中,他们使用spark根据规则过滤掉并生成适合内存的数据框...最终总有一些数据完全驻留在内存中,但是我想知道如何处理大数据集并进行探索性数据分析

另一个挑战是可视化大数据以进行探索性数据分析...如果适合内存,可以使用seaborn或matplotlib之类的包轻松实现,但如何对大数据执行

1 个答案:

答案 0 :(得分:2)

要放置一些具体的东西: