第一个主要组成部分几乎包含所有信息,但它似乎不是分类的最佳指标

时间:2016-10-18 18:22:00

标签: r pca outliers ggbiplot

我有一个180个元素的特征向量,并在其上应用了PCA。问题是第一台PC有很大的差异,但根据这个pc1对pc2的双时隙图,似乎这是因为异常值而发生的。这对我来说很奇怪。 pc1 vs pc2

显然第一台PC不是这里分类的最佳指标。

以下是pc2与pc3的双时隙图: pc2 vs pc3

我正在使用R。任何建议为什么会发生这种情况以及如何解决这个问题?我应该删除异常值吗?如果是,那么R的最佳方式是什么?

- 编辑

我正在使用prcomp(features.df, center= TRUE, scale = TRUE)来规范化数据。

1 个答案:

答案 0 :(得分:0)

即使没有异常值,如果你的目标是分类又称“歧视”,PCA可能完全没有意义((在统计背景下,这个词完全“政治化”现在很少见))。 这就是为什么“他们”发明“crimcoords”与“prin.coords”不同,但后者是“主要坐标”(与你的主要成分相关)的统计数据。 网上似乎不再容易找到“Crimcoords”;在上个世纪,每个优秀的统计学家都知道+ - 他们是什么。一个很好的参考资料似乎是Gnanadesikan的专着“多元观测的统计数据分析方法”(1977年第1版,1997年第2版; Wiley)。

Ram Gnanadesikan已经非常清楚异常值的问题以及如此提到的“强大”方法。

如今,用于稳健多变量统计的“标准”R包是“rrcov”(由Valentin Todorov撰写)......该主题的现代版本(我认为允许“套索”类型正规化)是包'具有主要功能rrlda()的{​​{3}}'确实允许强制和Lasso(L1)惩罚。