应用错误收集

时间：2012-09-12 20:10:43

标签： machine-learning feature-extraction

我正在尝试通过PCA阅读并看到目标是最大化方差。我不太明白为什么。对其他相关主题的任何解释都会有所帮助

答案 0 :(得分：14)

方差衡量您所拥有数据的“可变性”。组件的数量可能是无限的，因此您希望“挤压”您构建的有限集的每个组件中的大多数信息。

如果要夸大，你要选择一个单个主成分，你会希望它考虑到最大的可变性：因此搜索最大方差，以便一个组件收集来自数据集的最“独特性”。

答案 1 :(得分：7)

请注意，PCA实际上并不会增加数据的差异。相反，它以这样的方式旋转数据集，以便使用主轴对齐最广泛的方向。这使您可以删除数据几乎平坦的维度。这会降低数据的维数，同时保持点之间的方差（或差异）尽可能接近原始值。

答案 2 :(得分：5)

最大化分量矢量方差与最大化这些矢量的“唯一性”相同。因此，你的矢量尽可能远离彼此。这样，如果你只使用前N个分量矢量，你将使用高度变化的矢量捕获更多的空间，而不是像相似的矢量。想想主要组件的实际含义。

例如，在3D空间中有2条正交的线。您可以使用那些正交线完全捕获环境，而不是平行（或几乎平行）的2条线。当使用非常少的向量应用于非常高的维度状态时，这成为要维持的向量之间更重要的关系。在线性代数意义上，您希望PCA生成独立的行，否则这些行中的一些将是多余的。

有关基本说明，请参阅此PDF from Princeton's CS Department。

答案 3 :(得分：0)

最大方差基本上是设置这些占据数据点最大扩展的轴，为什么？因为该轴的方向才是真正重要的，因为它可以解释相关性，稍后我们将沿着这些轴压缩/投影点以消除某些尺寸