解释逻辑回归中的分类变量重要性

时间:2015-12-15 22:58:58

标签: r variables logistic-regression r-caret

我使用R中的插入符号包来构建二元分类的逻辑回归模型,我的一个预测变量是一个具有4个级别的分类变量。以下是我的代码。

> mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
> mydata$admit <- factor(mydata$admit)
> mydata$rank <- factor(mydata$rank)
> str(mydata)
'data.frame':   400 obs. of  4 variables:
 $ admit: Factor w/ 2 levels "0","1": 1 2 2 2 1 2 2 1 2 1 ...
 $ gre  : int  380 660 800 640 520 760 560 400 540 700 ...
 $ gpa  : num  3.61 3.67 4 3.19 2.93 3 2.98 3.08 3.39 3.92 ...
 $ rank : Factor w/ 4 levels "1","2","3","4": 3 3 1 4 4 2 1 2 3 2 ...
> mymod <- train(admit ~ gre + gpa + rank, data=mydata, method="glm", family="binomial")
> summary(mymod)$coeff
                Estimate  Std. Error   z value     Pr(>|z|)
(Intercept) -3.989979073 1.139950936 -3.500132 0.0004650273
gre          0.002264426 0.001093998  2.069864 0.0384651284
gpa          0.804037549 0.331819298  2.423119 0.0153878974
rank2       -0.675442928 0.316489661 -2.134171 0.0328288188
rank3       -1.340203916 0.345306418 -3.881202 0.0001039415
rank4       -1.551463677 0.417831633 -3.713131 0.0002047107
> varImp(mymod)
glm variable importance

      Overall
rank3  100.00
rank4   90.72
gpa     19.50
rank2    3.55
gre      0.00

我的问题是,我如何解释varImp的模型,特别是关于排名?由于R假定秩为1为基线类,因此对于秩3来说,varImp最高是否意味着当秩为3时,与等级为1时相比,对于观察结果的最大不同?如果是这种情况,它似乎与模型的系数具有相同的故事,因为rank4具有比rank3更陡的斜率,即使它根据varImp具有较低的重要性。

0 个答案:

没有答案