如何使用尖号分类变量为预测模型选择特征?

时间:2019-06-18 08:28:11

标签: machine-learning data-science data-mining r-caret

我发现R中的插入符号包对于查看建模的重要变量非常有帮助。但是,我的数据集中有所有类别变量,在这种情况下,“ varImp”命令为每个因子变量标签返回变量重要性。我只想确定重要的不同变量列表,而不是标签。

library(caret)
logit <- glm(Life.Insurance.Owner~., data = train, family = 'binomial')
summary(logit)

varImp(logit,scale=FALSE)

1 个答案:

答案 0 :(得分:0)

正如您提到的“数据集中的所有分类变量”一样。每个变量的级别大小是多少?

您可以做到的-将类别变量转换为伪变量。现在,您的数据集表示连续变量。 [但是,这又要视情况而定-还要牢记您的目标。]

创建虚拟变量的简单示例:

x = c(红色,蓝色,绿色)

y = c(公交车,火车,船)

x.dummy = model.matrix(〜x-1,data = x)

y.dummy = model.matrix(〜y-1,data = y)