PCA用于索引构建。标志有问题

时间:2018-11-22 19:50:30

标签: r rstudio pca

我正在使用R(RStudio)构建一个指标/综合指标来评估例如商业效率。我正在使用factorMineR软件包中的PCA()命令,并使用7个不同的变量。我以前通过计算每个特定变量在第一个组件上的权重(可以通过PCA()$ var $ coord [,1]获得)来创建类似的索引,这没有问题,因为每个变量的权重为正。但是,有一个特定变量的权重带有不希望的符号:负。变量是“交付速度”,该符号表示速度越大,流程效率越低。那到底是怎么回事您将如何修改此问题,最好仍使用PCA?

1 个答案:

答案 0 :(得分:0)

在PCA中,可变权重的符号无关紧要。总的来说,所有分量都完美地代表了原始数据(当p 不需要,而是对于该特定提取信号(例如第一主成分)而言,该变量权值为负。

为了更好地理解,让我们以我从此very useful discussion中摘录的经典二维示例为例:

enter image description here

从图中可以看出,对于第二个主成分,权重之一必须为负数?

最后,如果该变量确实干扰了您的分析,则一种可能的解决方案是应用稀疏PCA。在交叉验证的正则化下,该方法能够使某些权重等于零。如果在您的情况下负权数不够重要,则在SPCA下可能会减小为零。