当第一个组件覆盖超过PCA分析总方差的99%时,它意味着什么/意味着什么? 我有一个大小为500X1000的特征向量,我使用Matlab的pca函数返回[coeff,score,latent,tsquared,explain]。变量'解释'返回每个组件所涵盖的差异百分比。
答案 0 :(得分:7)
explained
告诉您只需使用该主要组件即可准确表示数据。在您的情况下,这意味着只使用主要主成分,您可以非常准确地描述(达到99%)数据。
让我们做一个2D示例。想象一下,你有100x2
的数据并且你做了PCA。
结果可能是这样的(取自互联网)
此数据将为您提供约为90%的第一个主成分(图中的PCA第一维绿色大箭头)的explained
值。
这意味着什么?
这意味着如果将所有数据投影到该行,您将以90%的精度重建点(当然,您将丢失PCA第二维方向上的信息)。
在你的例子中,99%的视觉上意味着蓝色的几乎所有点都放在绿色的大箭头上,绿色箭头方向的变化非常小。
当然用1000维而不是2维可视化更难,但我希望你能理解。