PCA的主要组成部分

时间:2019-05-13 10:07:57

标签: python pca cross-validation dimensionality-reduction

我在datacamp.com中遇到了这个问题:
波纹管是同一点云的三个散点图。每个散点图显示一组不同的轴(红色)。哪些坐标轴可以代表点云的主要成分?

还记得主要成分是数据变化的方向吗?

答案: 情节1和3

我的问题是什么意思?为什么图2不是答案的一部分,因为可以旋转轴以适合点云。

enter image description here

2 个答案:

答案 0 :(得分:3)

如评论中所建议,这更适合进行交叉验证,或者可能适用于math.stackexchange。

现在答案在直观上相当简单。

主成分可以通过迭代过程获得,例如:

  1. 第一个主成分等效于线性组合a_1 %*% X,该线性组合在Var(a_1 %*% X)的约束下最大化t(a_1) %*% a_1 = 1
  2. 第二个主成分等效于线性组合a_2 %*% X,线性组合Var(a_2 %*% X)t(a_2) %*% a_2 = 1cov(a_1 %*% X, a_2 %*% X) = 0的约束下最大化。
  3. 第三个-|| -

根据此定义,请注意var(a_1 %*% X) = var( - a_1 %*% X),从而确定主要分量,直到该分量的符号为止。

根据此定义,我们可以看到:  1. 1和3是等效的,因为第一(最长)线在点分布最多的方向上(显示最大方差)  2.第二个图不能成为主要成分,因为其方向与最大方差的方向不一致。

Applied Multivariate Statistical Analysis中第430页(第ish)第8章包含了更详细的理论解释。

答案 1 :(得分:2)

如@NelsonGon所述,在CrossValidated上这可能会更好...但是无论如何:

图1和图3是正确的,因为它们的轴实际上是使所示平面上的方差最大化的轴。向量可以翻转,因为特征向量的符号在PCA中是任意的(您会注意到,图1和图3中的红色向量沿相同的轴,其中一个只是“翻转”)。 但是,情节2的向量显然没有沿着最大化点云散布的轴行进,因此,您所指的帖子中的答案。