主特征向量特征值给出的主成分方差

时间:2012-08-12 06:46:33

标签: machine-learning pca dimensionality-reduction principal-components

主成分分析中的

我想知道为什么数据投射到主要组件上 具有与原理特征向量对应的特征值的方差?

我在教科书中找不到解释。

3 个答案:

答案 0 :(得分:3)

在主成分分析(PCA)中,您正在计算原始坐标系的旋转,使得新协方差矩阵的所有非对角元素变为零(即,新坐标是不相关的)。特征向量定义新坐标轴的方向,特征值对应于新协方差矩阵的对角元素(沿新轴的方差)。因此,根据定义,特征值定义沿着相应的特征向量的方差。

请注意,如果要将所有原始数据值乘以某个常量(值大于1),则会增加数据的方差(和协方差)。如果您随后对修改后的数据执行PCA,则您计算的特征向量将是相同的(您仍需要相同的旋转以使您的坐标不相关),但特征值会增加,因为沿新坐标轴的数据方差将会增加。

答案 1 :(得分:2)

好问题。请阅读CMU's 36350 lecture notes。简而言之,PCA优化问题的成帧方式导致拉格朗日约束优化特征问题(第2-5页),它通过采用样本协方差矩阵的特征向量来解决。

答案 2 :(得分:1)

您在主要成分分析中所做的是“对协方差矩阵进行对角化”, 并且在协方差对角化的坐标基础上,你可以读出每个分量的方差。

要真正理解它需要学习作为特征值问题基础的线性代数;诸如“Hermitian矩阵的特征值在正交变换下是不变的”等等,但你可以尝试的是:

  1. 生成一些x - 值为零均值高斯,方差为sigma_x2
  2. 生成独立的y值作为零均值高斯,方差为sigma_y2<sigma_x2
  3. 将其视为二维数据集 - 请注意,它已构建完成 因此,相关矩阵是对角线的,并且每个方向上的数据的方差 (x,y)是协方差矩阵的对应元素。还要注意两者 该矩阵的特征值为sigma_x2,sigma_x1,特征向量为[1,0][0,1]
  4. 现在通过简单地旋转整个图片来构建相关数据集。在数学上,选择正交矩阵O,并生成每个[x,y]样本的旋转版本。您会发现此转换数据集的相关矩阵具有 非对角线元素,即xy之间的相关性。但是如果进行特征值分解,则特征向量就是正交矩阵的列 用于首先旋转数据,特征值是原始的特征值。
  5. 主成分分析,即协方差矩阵的特征值分解,反向运行该过程:从相关数据集开始,然后导出协方差矩阵对角化的坐标基。

    了解它可能需要学习正式的数学和一些经验,或许在2或3维问题上尝试(并将其可视化)将帮助您感受它。