我想用glm, family=binomial(link='logit')
对比编码来做logistic-regression contr.sum
,因为我想将分类预测变量的每个级别与大mean
进行比较。我在线性glm中使用了这种对比编码,但现在我也想将其用于逻辑回归。
但是,我并不真正理解代码在做什么,因为逻辑回归中没有平均值,仅计算(因变量)2个组中level = 1发生的次数。
因此,例如,我该如何解释以下manufacturer
的第一级?
data('mpg')
mpg = mpg %>% mutate(year = as.factor(year), manufacturer = as.factor(manufacturer))
mpg_glm = glm(year ~ manufacturer, data = mpg, family=binomial(link='logit'), contrasts = list(manufacturer = contr.sum))
summary(mpg_glm)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.01203 0.18065 0.067 0.947
manufacturer1 -0.01203 0.47458 -0.025 0.980
manufacturer2 0.52697 0.47819 1.102 0.270
manufacturer3 0.25990 0.35787 0.726 0.468
manufacturer4 -0.41750 0.42081 -0.992 0.321
manufacturer5 -0.23517 0.65010 -0.362 0.718
manufacturer6 0.27565 0.53424 0.516 0.606
manufacturer7 1.08658 0.78129 1.391 0.164
manufacturer8 -0.01203 0.94832 -0.013 0.990
manufacturer9 -0.70518 1.15440 -0.611 0.541
manufacturer10 -0.01203 0.94832 -0.013 0.990
manufacturer11 0.14212 0.54853 0.259 0.796
manufacturer12 -0.41750 0.86883 -0.481 0.631
manufacturer13 0.27565 0.53424 0.516 0.606
manufacturer14 -0.36871 0.37131 -0.993 0.321
或者也许有人在一个源/网站上可以找到此特定信息(我已经尝试找到有关此信息,但是它涉及具有正常对比的逻辑回归或线性glm中的对比编码。我没有找到共同解释这两个主题的网站。
非常感谢!