我有一个数据集,我使用model.matrix()
函数将因子变量转换为虚拟变量。我的数据有10列,每个都有3个级别(2,3,4),我一直在为每个列分别创建虚拟变量。
xFormData <- function(dataset){
mm0 <- model.matrix(~ factor(dataset$type) , data=dataset)
mm1 <- model.matrix(~ factor(dataset$type_last1), data = dataset)
mm2 <- model.matrix(~ factor(dataset$type_last2), data = dataset)
mm3 <- model.matrix(~ factor(dataset$type_last3), data = dataset)
mm4 <- model.matrix(~ factor(dataset$type_last4), data = dataset)
mm5 <- model.matrix(~ factor(dataset$type_last5), data = dataset)
mm6 <- model.matrix(~ factor(dataset$type_last6), data = dataset)
mm7 <- model.matrix(~ factor(dataset$type_last7), data = dataset)
mm8 <- model.matrix(~ factor(dataset$type_last8), data = dataset)
mm9 <- model.matrix(~ factor(dataset$type_last9), data = dataset)
mm10 <- model.matrix(~ factor(dataset$type_last10), data = dataset)
dataset <- cbind(dataset, mm0, mm1, mm2, mm3, mm4, mm5, mm6, mm7, mm8, mm9, mm10)
dataset
}
我想知道这是否是错误的过程,因为在对数据运行randomForest
并绘制变量重要性之后,它分别显示了不同的虚拟变量列。因此,列61-63是第10列的3个虚拟变量,randomForest
将第62列视为重要的预测变量。
我有两个问题:
1)这可以吗?
2)如果没有,我如何对虚拟变量进行分组,以便rf知道它们在一起?
答案 0 :(得分:3)
这没关系,如果你把这些因素作为因素,那么无论如何都会在幕后发生。对于大多数机器学习目的,不同级别的因子是不同的特征。想想像test outcome ~ school
这样的随机例子:也许上学A可以预测你是否通过考试,但不是学校B或学校C.然后,学校的A功能会有用,但不是其他
其中一个caret
小插图文档涵盖了这一点:http://cran.r-project.org/web/packages/caret/vignettes/caretMisc.pdf
此外,cars
中包含的caret
数据集应该是一个有用的示例。它包含两个因素 - “制造商”和“汽车类型” - 已经虚拟编码为一系列数字功能,用于机器学习目的。
data(cars, package='caret')
head(cars)