标签: python numpy pandas pca hdf
我正在操纵使用HDFStore对象存储的巨大DataFrame,该表太大而无法完全加载到内存中,因此我必须通过chunk提取数据块,这对于许多任务来说都很好。
我的问题出现了,我想在桌面上应用PCA,这需要加载整个DataFrame,但我没有足够的内存来执行此操作。
PCA function将一个numpy数组或一个pandas DataFrame作为输入,是否有另一种方法来应用直接使用存储在磁盘上的对象的PCA?
提前多多谢谢你,
ClydeX
答案 0 :(得分:1)
似乎非常适合scikit-learn的0.16 dev分支中的新IncrementalPCA。
更新:link to the latest stable version