当我在我的glm模型中使用交互加上family = binomial参数时以及当我将其遗漏时,我有一个关于重要性和重要性差异的问题。我对逻辑回归很陌生,过去只进行了更简单的线性回归。
我有树木年轮观察的数据集,两个分类解释变量(治疗和原点 >)。治疗变量是一个实验性干旱治疗,有四个级别(控制,第一次干旱,第二次干旱和两次干旱)。 Origin变量有三个级别,指的是树的原点(给定代码颜色表示不同的来源为红色,黄色和蓝色)。我的观察结果是否存在生长环( 1 =存在生长环,0 =没有生长环)。
就我而言,我对治疗的效果,Origin的效果以及治疗和起源的可能相互作用感兴趣。
有人建议二项Logistic回归是分析这个数据集的好方法。 (希望这是合适的?也许有更好的方法?)
我有n = 5(每个原始治疗组合有5个观察结果。因此,例如,对照治疗蓝色原生树的5个生长环观察结果,对照治疗黄色原始树的5个观察结果等)因此,总共有60个数据集中的年轮观测值。
在R中,我使用的代码是glm()函数。我将其设置如下:growthring_model< - glm(growthringobs~Dreatment + Origin + Treatment:Origin,data = growthringdata,family = binomial(link =" logit"))
我已经考虑了我的解释变量,因此控制处理和蓝色原点树是我的参考。
我注意到当我离开" family = binomial"在代码中的参数,它给出了我在给定数据结果时合理预期的p值。但是,当我添加" family = binomial"参数,p值为1或非常接近1(例如,1,0.98,0.99)。这看起来很奇怪。我可以看到它的重要性很低,但是根据我的实际数据,这些值接近于1会让我产生怀疑。如果我运行模型而不使用" family = binomial"论证,我得到的p值似乎更有意义(即使它们仍然相对较高/无关紧要)。
有人可以帮助我理解二项式论证如何改变我的结果吗?(我知道它指的是分布,即我的观察结果是1或0)究竟是什么它改变了模型?这是样本量小的结果吗?我的代码中有什么东西吗?也许那些非常高的值是正确的(或不是?)?
以下是我的模型摘要的读数,其中包含二项式参数: 呼叫: glm(公式=生长〜治疗+起源+治疗:起源, family =二项式(link =" logit"),data = growthringdata)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.79412 -0.00005 -0.00005 -0.00005 1.79412
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.057e+01 7.929e+03 -0.003 0.998
TreatmentFirst Drought -9.931e-11 1.121e+04 0.000 1.000
TreatmentSecond Drought 1.918e+01 7.929e+03 0.002 0.998
TreatmentTwo Droughts -1.085e-10 1.121e+04 0.000 1.000
OriginYellow 1.918e+01 7.929e+03 0.002 0.998
OriginRed -1.045e-10 1.121e+04 0.000 1.000
TreatmentFirst Drought:OriginYellow -1.918e+01 1.373e+04 -0.001 0.999
TreatmentSecond Drought:OriginYellow -1.739e+01 7.929e+03 -0.002 0.998
TreatmentTwo Droughts:OriginYellow -1.918e+01 1.373e+04 -0.001 0.999
TreatmentFirst Drought:OriginRed 1.038e-10 1.586e+04 0.000 1.000
TreatmentSecond Drought:OriginRed 2.773e+00 1.121e+04 0.000 1.000
TreatmentTwo Droughts:OriginRed 2.016e+01 1.373e+04 0.001 0.999
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 57.169 on 59 degrees of freedom
Residual deviance: 28.472 on 48 degrees of freedom
AIC: 52.472
Number of Fisher Scoring iterations: 19
这里是没有二项式参数的模型摘要的读出: 呼叫: glm(公式=生长〜治疗+起源+治疗:起源,数据=生长数据)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.8 0.0 0.0 0.0 0.8
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.278e-17 1.414e-01 0.000 1.0000
TreatmentFirst Drought 3.145e-16 2.000e-01 0.000 1.0000
TreatmentSecond Drought 2.000e-01 2.000e-01 1.000 0.3223
TreatmentTwo Droughts 1.152e-16 2.000e-01 0.000 1.0000
OriginYellow 2.000e-01 2.000e-01 1.000 0.3223
OriginRed 6.879e-17 2.000e-01 0.000 1.0000
TreatmentFirst Drought:OriginYellow -2.000e-01 2.828e-01 -0.707 0.4829
TreatmentSecond Drought:OriginYellow 2.000e-01 2.828e-01 0.707 0.4829
TreatmentTwo Droughts:OriginYellow -2.000e-01 2.828e-01 -0.707 0.4829
TreatmentFirst Drought:OriginRed -3.243e-16 2.828e-01 0.000 1.0000
TreatmentSecond Drought:OriginRed 6.000e-01 2.828e-01 2.121 0.0391 *
TreatmentTwo Droughts:OriginRed 4.000e-01 2.828e-01 1.414 0.1638
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.1)
Null deviance: 8.9833 on 59 degrees of freedom
Residual deviance: 4.8000 on 48 degrees of freedom
AIC: 44.729
Number of Fisher Scoring iterations: 2
(我提前为我的问题可能的简单性道歉。我已经尝试阅读逻辑回归并尝试遵循一些例子。但我一直在努力寻找解决我特定情况的答案)
非常感谢。
答案 0 :(得分:0)
与上述Gregor的评论一致,可以将其解释为编程问题。如果省略family = binomial
,则函数glm()
将使用默认值family = gaussian
,这意味着一个标识链接函数,并假定存在正常的同调错误。另请参见?glm
。
在这里可能会违反正常和/或同等误差的假设。因此,此处显示的第二个模型的标准误差和p值可能不正确。