我已经进行了大量的谷歌搜索,这些解释要么没有任何意义,要么说他们只是使用因素而不是有序数据。我知道``.L is linear,
。Q`是平方的,...等等。但是我不知道该如何真正表达它的意思。举例来说,
Primary.L 7.73502 0.984
Primary.Q 6.81674 0.400
Primary.C -4.07055 0.450
Primary^4 1.48845 0.600
其中第一列是变量,第二列是估计值,第三列是p值。当变量按顺序增加时,我要说些什么?这基本上是在说我将使用哪种模型,所以7.73502x + 6.81674x^2 - 4.07055x^3
就是模型的样子?还是只包括二次方?所有这些都令人困惑。如果有人能解释如何解释这些.L
,.Q
,.C
等,那就太好了。
> summary(glm(DEPENDENT ~ Year, data = HAVE, family = "binomial"))
Call:
glm(formula = DEPENDENT ~ Year, family = "binomial", data = HAVE)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.3376 -0.2490 -0.2155 -0.1635 3.1802
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.572966 0.028179 -126.798 < 2e-16 ***
Year.L -2.212443 0.150295 -14.721 < 2e-16 ***
Year.Q -0.932844 0.162011 -5.758 8.52e-09 ***
Year.C 0.187344 0.156462 1.197 0.2312
Year^4 -0.595352 0.147113 -4.047 5.19e-05 ***
Year^5 -0.027306 0.135214 -0.202 0.8400
Year^6 -0.023756 0.120969 -0.196 0.8443
Year^7 0.079723 0.111786 0.713 0.4757
Year^8 -0.080749 0.103615 -0.779 0.4358
Year^9 -0.117472 0.098423 -1.194 0.2327
Year^10 -0.134956 0.095098 -1.419 0.1559
Year^11 -0.106700 0.089791 -1.188 0.2347
Year^12 0.102289 0.088613 1.154 0.2484
Year^13 0.125736 0.084283 1.492 0.1357
Year^14 -0.009941 0.084058 -0.118 0.9059
Year^15 -0.173013 0.088781 -1.949 0.0513 .
Year^16 -0.146597 0.090398 -1.622 0.1049
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 18687 on 80083 degrees of freedom
Residual deviance: 18120 on 80067 degrees of freedom
AIC: 18154
Number of Fisher Scoring iterations: 7
答案 0 :(得分:5)
该输出表明您的预测变量Year
是一个“有序因素”,这意味着R不仅将变量中的观察值理解为不同的类别或组(即一个因素),而且各个类别也具有自然的在一个类别被认为比另一个类别大的情况下订购。
在这种情况下,R的默认值是拟合一系列多项式函数或与变量的水平形成对比。第一个是线性(.L),第二个是二次(.Q),第三个是三次(.C),依此类推。 R将适合的多项式函数比可用级数少。因此,您的输出表明数据中有17个不同的年份。
您可能会认为输出中的这17个(计算截距)预测变量是全新的变量,它们都是基于原始变量的顺序的,因为R使用使所有新预测变量正交(即不相关)的特殊值创建它们,线性独立或不相关)。
查看使用的值的一种方法是在模型对象上使用model.matrix()
函数。
model.matrix(glm(DEPENDENT ~ Year, data = HAVE, family = "binomial"))
如果执行上述操作,则会在每个新变量列中找到一堆重复的数字,其中重复的更改与原始Year
预测变量切换类别的位置相对应。特定值本身对您没有任何实际意义,因为它们是由R选择/计算的,以使所有对比度彼此线性独立。
因此,您在R输出中的模型将是:
logit(p)= -3.57 + -2.21 * Year.L + -0.93 * Year.Q + ... + -0.15 * Year ^ 16
其中,p是存在感兴趣的特征的概率,对数变换定义为对数赔率,其中赔率= p /(1- p),对数赔率= ln(odds)。因此logit(p)= ln(p /(1-p))。
然后将对特定beta测试的解释概括为:哪些对比在解释因变量水平之间的任何差异方面有显着贡献?因为您的Year.L
预测因子显着且为负值,这表明数年来logit呈线性下降趋势,并且由于您的Year.Q
预测因子显着且为负值,这表明可以以对数形式检测到减速度趋势。跨年。三阶多项式模型jerk和四阶多项式模型jounce(又称快照)。但是,我将不再围绕这个顺序或更高的顺序进行解释,因为它很快对实际的人变得毫无意义。
类似地,解释一个特定的beta估计值对我来说有点荒谬,但这是因为在给定的特定对比水平(例如二次方)下,在结果中切换类别的几率与在给定的对比水平(例如,二次方)下,在结果中切换类别,减去一个单位等于对β估计取幂的比值比。对于您的示例中的二次对比,优势比为exp(-0.9328)
= 0.3935,但是我说这有点荒谬,因为R所选择的单位几乎没有实际意义,因为它们使预测变量彼此线性独立。因此,在这种情况下,我宁愿专注于解释给定的对比测试,而不是系数。
为进一步阅读,这是UCLA精彩的IDRE上的网页,讨论了how to interpret odds ratios in logistic regression,这是一个疯狂的酷但激烈的堆栈交换答案,遍历了how R chooses the polynomial contrast weights。