pyspark - 如果我的数据无法容纳在内存中，请执行EDA并将其可视化？我的数据集大小是200gigs

时间：2018-08-03 00:27:35

标签： pyspark data-visualization plotly dask holoviews

执行探索性数据分析是任何机器学习项目的第一步，我主要使用熊猫来使用适合内存的数据集执行数据探索...但是我想知道如何执行数据清理，处理丢失的数据并数据离群值，单个变量图，特征如何影响标签，相关性等的密度图等

Pandas易于使用Python进行数据分析。但是由于系统内存有限，我发现难以处理Pandas中的多个较大数据帧。

对于大于RAM ... 100 GB的数据集

我看过一些教程，在这些教程中，他们使用spark根据规则过滤掉并生成适合内存的数据框...最终总有一些数据完全驻留在内存中，但是我想知道如何处理大数据集并进行探索性数据分析

另一个挑战是可视化大数据以进行探索性数据分析...如果适合内存，可以使用seaborn或matplotlib之类的包轻松实现，但如何对大数据执行

答案 0 :(得分：2)

要放置一些具体的东西：

通常，您会希望通过聚合，采样等方式将数据减少到足够小的程度，以使直接可视化变得有意义
有些工具可以直接处理大于内存的数据（Dask）以创建视觉效果。一个很好的链接是：http://pyviz.org/tutorial/10_Working_with_Large_Datasets.html