划分大型数据集,将较小的df合并为较大的df,然后使用Dask帮助加快处理速度?

时间:2019-06-23 01:27:55

标签: python pandas dataframe dask

我刚开始处理大数据,我正在处理一个相当大的数据集,该数据集的宽度大于长度(许多列,而不是许多行),并希望对整个数据框进行分析。

简而言之,这些列是相关变量,我希望删除所有相关变量。

深入

理想情况下,我将创建一个函数,将数据集作为大熊猫数据帧,将数据帧分块为较小的数据帧(例如,数据帧1、2、3、4、5和6),然后执行分析这些列的相关性在一起。

意识到无法单独执行此操作,我希望对这6个块运行分析,以连续的方式合并(例如,数据帧1_2被合并,然后3_4,然后5_6),分析再次运行,然后再次合并(现在,先是1_2_3,然后是4_5_6),然后重复该过程,直到整个数据集完全不相关为止。

2个问题:

  1. 该函数将这些块合并成更大的样子 大块? (因为尝试一次制作多个迷你块)
  2. 除了试图加快分析速度之外,我还能如何 在此分块中利用Dask的核心功能?

0 个答案:

没有答案