我希望从庞大的数据集中提取“主要组件”(每个数据点都有1000万个功能)。我有大约1000个这样的数据点。 PCA只需要协方差矩阵,即1000x1000,因此在数据上进行PCA是非常可行的。但是,主要组件仍然具有与数据点(1000万+)相同的维度。我想减少它,因为我的代码需要读取主要组件,如果每个主要组件都是几十兆字节,那么速度会非常慢。
理想情况下,我希望在应用PCA之前减少数据集的维度,尽可能在原始数据中保留相关信息。有什么建议?显然,简单地对原始数据进行下采样会起作用,但我会丢失原始数据的高频部分。
谢谢^。^