PCA上有巨大的(1000万个特征)数据集

时间:2015-10-29 16:28:04

标签: matlab pca

我希望从庞大的数据集中提取“主要组件”(每个数据点都有1000万个功能)。我有大约1000个这样的数据点。 PCA只需要协方差矩阵,即1000x1000,因此在数据上进行PCA是非常可行的。但是,主要组件仍然具有与数据点(1000万+)相同的维度。我想减少它,因为我的代码需要读取主要组件,如果每个主要组件都是几十兆字节,那么速度会非常慢。

理想情况下,我希望在应用PCA之前减少数据集的维度,尽可能在原始数据中保留相关信息。有什么建议?显然,简单地对原始数据进行下采样会起作用,但我会丢失原始数据的高频部分。

谢谢^。^

0 个答案:

没有答案