处理不适合内存的Pandas DataFrame

时间:2015-01-16 16:16:35

标签: python numpy pandas pca hdf

我正在操纵使用HDFStore对象存储的巨大DataFrame,该表太大而无法完全加载到内存中,因此我必须通过chunk提取数据块,这对于许多任务来说都很好。

我的问题出现了,我想在桌面上应用PCA,这需要加载整个DataFrame,但我没有足够的内存来执行此操作。

PCA function将一个numpy数组或一个pandas DataFrame作为输入,是否有另一种方法来应用直接使用存储在磁盘上的对象的PCA?

提前多多谢谢你,

ClydeX

1 个答案:

答案 0 :(得分:1)

似乎非常适合scikit-learn的0.16 dev分支中的新IncrementalPCA

更新link to the latest stable version