我正在尝试通过PCA阅读并看到目标是最大化方差。我不太明白为什么。对其他相关主题的任何解释都会有所帮助
答案 0 :(得分:14)
方差衡量您所拥有数据的“可变性”。组件的数量可能是无限的,因此您希望“挤压”您构建的有限集的每个组件中的大多数信息。
如果要夸大,你要选择一个单个主成分,你会希望它考虑到最大的可变性:因此搜索最大方差,以便一个组件收集来自数据集的最“独特性”。
答案 1 :(得分:7)
请注意,PCA实际上并不会增加数据的差异。相反,它以这样的方式旋转数据集,以便使用主轴对齐最广泛的方向。这使您可以删除数据几乎平坦的维度。这会降低数据的维数,同时保持点之间的方差(或差异)尽可能接近原始值。
答案 2 :(得分:5)
最大化分量矢量方差与最大化这些矢量的“唯一性”相同。因此,你的矢量尽可能远离彼此。这样,如果你只使用前N个分量矢量,你将使用高度变化的矢量捕获更多的空间,而不是像相似的矢量。想想主要组件的实际含义。
例如,在3D空间中有2条正交的线。您可以使用那些正交线完全捕获环境,而不是平行(或几乎平行)的2条线。当使用非常少的向量应用于非常高的维度状态时,这成为要维持的向量之间更重要的关系。在线性代数意义上,您希望PCA生成独立的行,否则这些行中的一些将是多余的。
有关基本说明,请参阅此PDF from Princeton's CS Department。
答案 3 :(得分:0)