我先写一下:
我已经广泛研究了这个问题,并且我发现了几个有趣的可能性(例如this和this)。我还研究了主成分分析,并且我看到一些消息来源声称它是一种很差的降维方法。但是,我觉得这可能是一个很好的方法,但我不确定如何实现它。我在这个问题上找到的所有资料都给出了很好的解释,但很少提供任何关于实际应用其中一种方法的建议(即如何在R中实际应用方法)。 / p>
所以,我的问题是:是否有明确的方法来降低R的尺寸?我的数据集包含数字和分类变量(具有多个级别)并且非常大(~40k观察值,18个变量(如果我将分类变量转换为虚拟变量,则为37个)。
几点:
如果我们想要使用PCA,那么我必须以某种方式将我的分类变量转换为数字。是否可以简单地使用虚拟变量方法?
对于无监督学习的任何类型的降维,我如何处理有序变量?在无监督学习中,序数变量的概念是否有意义?
我对PCA的真正问题在于,当我执行它并拥有我的主要组件时......我不知道该如何处理它们。据我所知,每个主要成分都是变量的组合 - 因此我并不确定这有助于我们选择哪个是最佳变量。
答案 0 :(得分:1)
我不认为这是一个R问题。这更像是一个统计问题。
阅读本文:
您可能还需要考虑分类变量的对应分析和分类和连续的多因素分析。