我刚开始处理大数据,我正在处理一个相当大的数据集,该数据集的宽度大于长度(许多列,而不是许多行),并希望对整个数据框进行分析。
简而言之,这些列是相关变量,我希望删除所有相关变量。
深入
理想情况下,我将创建一个函数,将数据集作为大熊猫数据帧,将数据帧分块为较小的数据帧(例如,数据帧1、2、3、4、5和6),然后执行分析这些列的相关性在一起。
意识到无法单独执行此操作,我希望对这6个块运行分析,以连续的方式合并(例如,数据帧1_2被合并,然后3_4,然后5_6),分析再次运行,然后再次合并(现在,先是1_2_3,然后是4_5_6),然后重复该过程,直到整个数据集完全不相关为止。
2个问题: