不同类型的分类变量以及如何使R在PCA中使用它们

时间:2016-08-24 19:30:07

标签: r pca

我开始使用R,并了解PCA分析,但我的问题与分类变量有关。

我的数据集中有三种主要类型的分类变量。

第一类:特征的存在/缺失,我知道我可以将其转换为表中的1/0而不用担心。

类型二:特征的频率或丰度,我假设如果我将缺少/不太丰富/丰富的东西变换为0/1/2,我将会理解。

类型三:有问题的一个。这是真正的绝对,作为标签。变量的名称是" cambial variant",可能性是:缺席/浅裂/复合/裂缝/有线等等...... 这些是不同类型的cambial变种,不同种类的植物可以找到不同类型。

首先我假设可以简单地为这些不同的类型使用不同的数字(例如:absent = 0,lobed = 1,compound = 2,依此类推)。所以我像那样执行了 prcomp ,结果正是我的预期。但后来我意识到我犯了一个错误,就是根据不相关的东西使用不同的数字,对吧?该程序理解3大于2,这在某种程度上是错误的,因为"裂隙类型"和#34;复合类型"不是同一事物的强度水平(丰度,频率,等等)。它们是相同结构的不同类型,但是一个不会转换为另一个,它们与那种方式无关。

所以,总之,我想知道如何将这些更像标签的变量转换为函数 prcomp 可以理解和使用的东西。或者,如果这不是一个选项,如果R中有另一个函数可以使用这些不能修改为数字的分类变量进行PCA。

谢谢大家,如果我的问题太愚蠢,我很抱歉,我真的只是一个初学者!

0 个答案:

没有答案