应用错误收集

第一个主要组成部分几乎包含所有信息，但它似乎不是分类的最佳指标

时间：2016-10-18 18:22:00

标签： r pca outliers ggbiplot

我有一个180个元素的特征向量，并在其上应用了PCA。问题是第一台PC有很大的差异，但根据这个pc1对pc2的双时隙图，似乎这是因为异常值而发生的。这对我来说很奇怪。

显然第一台PC不是这里分类的最佳指标。

以下是pc2与pc3的双时隙图：

我正在使用R。任何建议为什么会发生这种情况以及如何解决这个问题？我应该删除异常值吗？如果是，那么R的最佳方式是什么？

- 编辑

我正在使用prcomp(features.df, center= TRUE, scale = TRUE)来规范化数据。

1 个答案:

答案 0 :(得分：0)

即使没有异常值，如果你的目标是分类又称“歧视”，PCA可能完全没有意义（（在统计背景下，这个词完全“政治化”现在很少见））。这就是为什么“他们”发明“crimcoords”与“prin.coords”不同，但后者是“主要坐标”（与你的主要成分相关）的统计数据。网上似乎不再容易找到“Crimcoords”;在上个世纪，每个优秀的统计学家都知道+ - 他们是什么。一个很好的参考资料似乎是Gnanadesikan的专着“多元观测的统计数据分析方法”（1977年第1版，1997年第2版; Wiley）。

Ram Gnanadesikan已经非常清楚异常值的问题以及如此提到的“强大”方法。

如今，用于稳健多变量统计的“标准”R包是“rrcov”（由Valentin Todorov撰写）......该主题的现代版本（我认为允许“套索”类型正规化）是包'具有主要功能rrlda()的{{3}}'确实允许强制和Lasso（L1）惩罚。