PCA中第一组分所涵盖的99%方差的显着性

时间:2015-06-11 10:00:01

标签: matlab pca

当第一个组件覆盖超过PCA分析总方差的99%时,它意味着什么/意味着什么? 我有一个大小为500X1000的特征向量,我使用Matlab的pca函数返回[coeff,score,latent,tsquared,explain]。变量'解释'返回每个组件所涵盖的差异百分比。

1 个答案:

答案 0 :(得分:7)

explained告诉您只需使用该主要组件即可准确表示数据。在您的情况下,这意味着只使用主要主成分,您可以非常准确地描述(达到99%)数据。

让我们做一个2D示例。想象一下,你有100x2的数据并且你做了PCA。

结果可能是这样的(取自互联网)

enter image description here

此数据将为您提供约为90%的第一个主成分(图中的PCA第一维绿色大箭头)的explained值。

这意味着什么?

这意味着如果将所有数据投影到该行,您将以90%的精度重建点(当然,您将丢失PCA第二维方向上的信息)。

在你的例子中,99%的视觉上意味着蓝色的几乎所有点都放在绿色的大箭头上,绿色箭头方向的变化非常小。

当然用1000维而不是2维可视化更难,但我希望你能理解。