应用错误收集

时间：2012-08-12 06:46:33

标签： machine-learning pca dimensionality-reduction principal-components

主成分分析中的

我想知道为什么数据投射到主要组件上具有与原理特征向量对应的特征值的方差？

我在教科书中找不到解释。

答案 0 :(得分：3)

在主成分分析（PCA）中，您正在计算原始坐标系的旋转，使得新协方差矩阵的所有非对角元素变为零（即，新坐标是不相关的）。特征向量定义新坐标轴的方向，特征值对应于新协方差矩阵的对角元素（沿新轴的方差）。因此，根据定义，特征值定义沿着相应的特征向量的方差。

请注意，如果要将所有原始数据值乘以某个常量（值大于1），则会增加数据的方差（和协方差）。如果您随后对修改后的数据执行PCA，则您计算的特征向量将是相同的（您仍需要相同的旋转以使您的坐标不相关），但特征值会增加，因为沿新坐标轴的数据方差将会增加。

答案 1 :(得分：2)

好问题。请阅读CMU's 36350 lecture notes。简而言之，PCA优化问题的成帧方式导致拉格朗日约束优化特征问题（第2-5页），它通过采用样本协方差矩阵的特征向量来解决。

答案 2 :(得分：1)

您在主要成分分析中所做的是“对协方差矩阵进行对角化”，并且在协方差对角化的坐标基础上，你可以读出每个分量的方差。

要真正理解它需要学习作为特征值问题基础的线性代数;诸如“Hermitian矩阵的特征值在正交变换下是不变的”等等，但你可以尝试的是：

生成一些x - 值为零均值高斯，方差为sigma_x2
生成独立的y值作为零均值高斯，方差为sigma_y2<sigma_x2。
将其视为二维数据集 - 请注意，它已构建完成因此，相关矩阵是对角线的，并且每个方向上的数据的方差（x,y）是协方差矩阵的对应元素。还要注意两者该矩阵的特征值为sigma_x2,sigma_x1，特征向量为[1,0]和[0,1]。
现在通过简单地旋转整个图片来构建相关数据集。在数学上，选择正交矩阵O，并生成每个[x,y]样本的旋转版本。您会发现此转换数据集的相关矩阵具有非对角线元素，即x和y之间的相关性。但是如果进行特征值分解，则特征向量就是正交矩阵的列用于首先旋转数据，特征值是原始的特征值。

主成分分析，即协方差矩阵的特征值分解，反向运行该过程：从相关数据集开始，然后导出协方差矩阵对角化的坐标基。

了解它可能需要学习正式的数学和一些经验，或许在2或3维问题上尝试（并将其可视化）将帮助您感受它。