R中聚类的降维(PCA和其他方法)

时间:2017-04-05 15:40:38

标签: r pca feature-selection dimensionality-reduction

我先写一下:

我已经广泛研究了这个问题,并且我发现了几个有趣的可能性(例如thisthis)。我还研究了主成分分析,并且我看到一些消息来源声称它是一种很差的降维方法。但是,我觉得这可能是一个很好的方法,但我不确定如何实现它。我在这个问题上找到的所有资料都给出了很好的解释,但很少提供任何关于实际应用其中一种方法的建议(即如何在R中实际应用方法)。 / p>

所以,我的问题是:是否有明确的方法来降低R的尺寸?我的数据集包含数字和分类变量(具有多个级别)并且非常大(~40k观察值,18个变量(如果我将分类变量转换为虚拟变量,则为37个)。

几点:

  • 如果我们想要使用PCA,那么我必须以某种方式将我的分类变量转换为数字。是否可以简单地使用虚拟变量方法?

  • 对于无监督学习的任何类型的降维,我如何处理有序变量?在无监督学习中,序数变量的概念是否有意义?

  • 我对PCA的真正问题在于,当我执行它并拥有我的主要组件时......我不知道该如何处理它们。据我所知,每个主要成分都是变量的组合 - 因此我并不确定这有助于我们选择哪个是最佳变量。

1 个答案:

答案 0 :(得分:1)

我不认为这是一个R问题。这更像是一个统计问题。

  • PCA不适用于分类变量。 PCA依赖于分解协方差矩阵,这对分类变量不起作用。
  • 有序变量在监督和无监督学习中有很大意义。你到底想要什么?你应该只对序数变量应用PCA,如果它们没有偏斜并且你有很多级别。
  • PCA仅为您提供主成分及其特征值的新变换。它与降维无关。我再说一遍,它与降维无关。仅当您选择主要组件的子集时,才会减少数据集。 PCA可用于回归,数据可视化,探索性分析等。
  • 常用的方法是应用最佳缩放来转换PCA的分类变量:

阅读本文:

  

http://www.sicotests.com/psyarticle.asp?id=159

您可能还需要考虑分类变量的对应分析和分类和连续的多因素分析