我有一个180个元素的特征向量,并在其上应用了PCA。问题是第一台PC有很大的差异,但根据这个pc1对pc2的双时隙图,似乎这是因为异常值而发生的。这对我来说很奇怪。
显然第一台PC不是这里分类的最佳指标。
我正在使用R。任何建议为什么会发生这种情况以及如何解决这个问题?我应该删除异常值吗?如果是,那么R的最佳方式是什么?
- 编辑
我正在使用prcomp(features.df, center= TRUE, scale = TRUE)
来规范化数据。
答案 0 :(得分:0)
即使没有异常值,如果你的目标是分类又称“歧视”,PCA可能完全没有意义((在统计背景下,这个词完全“政治化”现在很少见))。 这就是为什么“他们”发明“crimcoords”与“prin.coords”不同,但后者是“主要坐标”(与你的主要成分相关)的统计数据。 网上似乎不再容易找到“Crimcoords”;在上个世纪,每个优秀的统计学家都知道+ - 他们是什么。一个很好的参考资料似乎是Gnanadesikan的专着“多元观测的统计数据分析方法”(1977年第1版,1997年第2版; Wiley)。
Ram Gnanadesikan已经非常清楚异常值的问题以及如此提到的“强大”方法。
如今,用于稳健多变量统计的“标准”R包是“rrcov”(由Valentin Todorov撰写)......该主题的现代版本(我认为允许“套索”类型正规化)是包'具有主要功能rrlda()
的{{3}}'确实允许强制和Lasso(L1)惩罚。