基于相关矩阵的大型稀疏矩阵上的PCA

时间:2012-11-27 20:53:12

标签: python matlab numpy machine-learning sparse-matrix

我有一个很大的(500k乘500k)稀疏矩阵。我想得到它的主要组成部分(事实上,即使只计算最大的PC也没关系)。随机PCA工作得很好,除了它基本上找到协方差矩阵的特征向量而不是相关矩阵。使用大型稀疏矩阵的协方差矩阵找到PCA的包的任何想法?最好是在python中,虽然matlab和R也可以工作。

(作为参考,问了一个类似的问题here,但方法是指协方差矩阵。

2 个答案:

答案 0 :(得分:0)

他们不是一回事吗?据我所知,相关矩阵只是由每个变量的标准差的乘积归一化的协方差矩阵。而且,如果我没记错的话,PCA中是否存在缩放歧义?

答案 1 :(得分:0)

你有没有试过R中的irlba包 - “IRLBA包是该方法的R语言实现。有了它,你可以计算部分SVD和非常大规模数据的主成分分析。该包适用于稀疏矩阵以及Bigmemory包提供的其他矩阵类。“您可以查看here了解详情