标签: r bigdata pca
我有一个n = 100,000个观测值的数据集,其中包含p = 2百万个变量。 我无法一次将所有数据加载到内存中,并且协方差矩阵也不适合(200万x 2百万)。 R中是否有办法获得大多数相关的主成分(我认为约为5,000至10,000,解释了总变异的99%)?
我正在尝试查找迭代算法是否实现良好。我发现这些软件包似乎已经停产,或者只是接近了一些最初的主要成分。
如果没有带有预编译算法的软件包,您建议使用哪种迭代算法来获得大多数PC? (我可以自己编写代码)