glm中的系数与loglm中的系数

时间:2013-09-25 19:41:15

标签: r statistics glm

我使用loglm和glm,使用对数线性模型拟合了一个三维列联表(此处未提供,但我可以提供帮助)。 我得到的系数的两个结果是:

> coefficients(nodnox_loglm_model)
$`(Intercept)`
[1] 10.18939

$w
       0.05         0.1        0.15         0.2        0.25         0.3        0.35         0.4        0.45 
-1.04596513 -0.41193617 -0.08840858  0.06407334 -0.06862606  0.02999039  0.17084795  0.45838071  0.35307375 
        0.5 
 0.53856982 

$s
          2           3           4           5 
 0.36697307  0.15164360 -0.48264571 -0.03597096 

> coefficients(nodnox_glm_model)
(Intercept)          s3          s4          s5        w0.1       w0.15        w0.2       w0.25        w0.3 
  9.5104005  -0.2153295  -0.8496188  -0.4029440   0.6340290   0.9575566   1.1100385   0.9773391   1.0759555 
      w0.35        w0.4       w0.45        w0.5 
  1.2168131   1.5043458   1.3990389   1.5845350 

我知道这两种方法有不同的数值程序 - 我不关心 - 所有我想知道的是如何将glm系数与loglm系数联系起来?

我在互联网上找到的所有内容以及我在进入stackoverflow之前搜索的文档都是这个注释:

  

glm系数表就像ANOVA的摘要一样   由lm生成:首先按字母顺序排列的级别(s2,w0.5)用作   截取,并且所有后续级别都针对第一级进行测试   (因此剩下的系数是与平均值的差异,而不是   意味着自己)。

但是,对我来说,这还不足以理解如何以loglm的形式从glm输出中获取系数。 现在,您的问题可能是:“为什么不直接使用loglm?” Loglm在我的情况下不起作用(这不是我在这里比较的那个,但它有一个带有一些零的5维表。所以如果我在原始表上使用loglm,它会给我所有系数作为NaN)。所以我坚持使用glm,我真的希望得到loglm中的系数。

非常感谢!

1 个答案:

答案 0 :(得分:4)

您似乎有一个双向交叉表,其中包含10个因子w级别和5个因子s级别,模型中没有相互作用。对于glm(),分类变量的默认编码方案是treatment coding,其中因子中的第一个组是参考级别,每个剩余组的相应参数是它与此参考的差异。 (Intercept)估算值适用于所有组的单元格=其因子的参考级别。

对于loglm(),参数用于偏差编码,这意味着每个组都获得自己的参数,并且一个因子的参数总和为零。 (Intercept)是加入所有群组效果的重要手段。

在您的示例中,您可以告诉glm()使用偏差编码来获得与loglm()相同的参数估计值(请参阅下面的示例),或者将参数估计值从处理编码转换为如下:

  • w = 0.05且s = 2是参考单元格:glm() 9.5104005 = loglm() 10.18939 + -1.04596513 + 0.36697307
  • w = 0.1且s = 2是s的参考级别,但需要从w = 0.1到参考w = 0.05的差异: glm() 9.5104005 + 0.6340290 = loglm() 10.18939 + -0.41193617 + 0.36697307
  • w = 0.1且s = 3,但需要w = 0.1与参考w = 0.05的差异,且与s =的差异= 3参考s = 2:glm() 9.5104005 + 0.6340290 + -0.2153295 = loglm() 10.18939 + -0.41193617 + 0.15164360,等等

glm()使用偏差编码的示例(UCBAdmissions是一个交叉表,其中绝对频率内置于基数R中):

> library(MASS)                                # for loglm()
> llmFit <- loglm(~ Admit + Gender + Dept, data=UCBAdmissions)
> coef(llmFit)
$`(Intercept)`
[1] 5.177567

$Admit
  Admitted   Rejected 
-0.2283697  0.2283697 

$Gender
      Male     Female 
 0.1914342 -0.1914342 

$Dept
          A           B           C           D           E           F 
 0.23047857 -0.23631478  0.21427076  0.06663476 -0.23802565 -0.03704367 

> UCBdf <- as.data.frame(UCBAdmissions)  # convert to data frame for glm()
> glmFit <- glm(Freq ~ Admit + Gender + Dept, family=poisson(link="log"),
+               contrasts=list(Admit=contr.sum, Gender=contr.sum, Dept=contr.sum),
+               data=UCBdf)
> coef(glmFit)
(Intercept)      Admit1     Gender1       Dept1       Dept2       Dept3       Dept4 
 5.17756677 -0.22836970  0.19143420  0.23047857 -0.23631478  0.21427076  0.06663476 
      Dept5 
-0.23802565 

请注意,glm()未列出通过一个因子的参数的归零约束完全确定(别名)的参数估计值。