多个数据集上的PCA(主成分分析)

时间:2016-11-24 17:31:57

标签: matlab matrix machine-learning covariance pca

我有一组气候数据(例如温度,压力和湿度),X,Y,Z,它们是尺寸(nxp)的基质,其中n是观测数量,p是空间点数。 / p>

以前,为了研究数据集X中的变异模式,我简单地在X上执行经验正交函数(EOF)分析或主成分分析(PCA)。这涉及分解(通过SVD)矩阵X.

为了研究X和Y的可变性模式的耦合,我使用了最大协方差分析(MCA),其涉及分解与XY ^ {T}成比例的协方差矩阵。 (T是转置)

但是,如果我想查看所有三个数据集,我该如何进行此操作?我的一个想法是形成第四个矩阵L,它将是三个数据集的“特征”连接:

L = [X,Y,Z]

这样我的矩阵L将具有尺寸(n x 3p)。

然后我会使用标准的PCA / EOF分析并使用SVD来分解这个矩阵L然后我将获得大小为(3p x 1)的变异模式,因此随后与X相关的模式是第一个p值,与Y关联的模式是第二组p值,与Z关联的模式是最后一个p值。

这是对的吗?或者,任何人都可以建议一种更好的方式来查看所有三个(或更多)数据集的耦合吗?

非常感谢你!

1 个答案:

答案 0 :(得分:1)

我建议将空间点视为额外维度,即f x n x p,其中' f'是你的功能数量。此时,您应该使用可以处理张量数据的multilinear extension of PCA