我试图理解PCA,但我被困在一个特定的部分。在参考哈佛数据科学课程后,我在这里查了一下:https://en.wikipedia.org/wiki/Principal_component_analysis 在细节下,然后在第一个组件下面,他们说“第一个加载向量w(1)因此必须满足”,我理解为什么下面的行是真的?
arg max其中|| w ||当w是单位向量时,= 1意味着找到求和的最大值。但是,如果我们有一个给定的矩阵X,我不明白为什么我们想要这个,或者预期值会如何变化。除非试图优化哪些权重与每一行点缀?
或者我们这样做是为了将它变成Raleigh商形式,那么我们可以使用特征值来找到与矩阵相关的最大特征向量? (这也是最大的矢量)
为什么我们想要最大的矢量?在我们的变换轴中,我们只显示每个维度的最大方差?我们不想改变所有点并试图看到一些相关性吗?
答案 0 :(得分:0)
在某种意义上,具有最大特征值的特征向量指向最大方差的方向。具有第二大特征值的那个指向在考虑第一个之后剩下的最大方差的方向。具有第二大特征值的特征向量将与具有最大特征值的特征向量正交。再看看你引用的维基百科文章,然后查看右上角的图表。较长的线是具有最大特征值的特征向量,并且它指向数据中的最大方差。较短的线是具有第二大特征值的特征向量,它指向与第一条线正交的最大剩余方差。