为什么R中的回归删除因子变量的索引1?

时间:2013-03-05 18:55:55

标签: r statistics regression linear-regression

我正在尝试使用lmglm函数在R中进行回归。

我的因变量是基于事件在给定时间段内非事件的比例转换的数据。所以我的因变量是连续的,而我的自变量是因子变量或虚拟变量。

我有两个可以取

值的自变量
  
      
  • 年份i到年份m,我的YEAR变量
  •   
  • 月j到​​月n,我的MONTH变量
  •   

问题是每当我运行我的模型作为摘要时,结果4月(月份指数1)和1998年(年份指数1)不在结果范围内......如果我改变4月份让我们说“foo_bar”,八月将失踪......

请帮忙!这令我感到沮丧,我根本不知道如何寻找问题的解决方案。

1 个答案:

答案 0 :(得分:9)

如果R要为因子中的每个级别创建一个虚拟变量,则生成的变量集将与线性相关(假设还有一个截距项)。因此,选择一个因子水平作为基线,并且没有为其生成虚拟物。

为了说明这一点,让我们考虑一个玩具示例:

> data <- data.frame(y=c(2, 3, 5, 7, 11, 25), f=as.factor(c('a', 'a', 'b', 'b', 'c', 'c')))
> summary(lm(y ~ f, data))

Call:
lm(formula = y ~ f, data = data)

Residuals:
   1    2    3    4    5    6 
-0.5  0.5 -1.0  1.0 -7.0  7.0 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)    2.500      4.093   0.611   0.5845  
fb             3.500      5.788   0.605   0.5880  
fc            15.500      5.788   2.678   0.0752 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 5.788 on 3 degrees of freedom
Multiple R-squared: 0.7245, Adjusted R-squared: 0.5409 
F-statistic: 3.945 on 2 and 3 DF,  p-value: 0.1446 

如您所见,有三个系数(与因子中的级别数相同)。此处,a已被选为基线,因此(Intercept)指的是fa的数据子集。 bcfbfc)的系数是基线截距与其他两个因子水平截距之间的差异 。因此,b的截距为62.500+3.500),c的截距为192.500+15.500)。

如果您不喜欢自动选择,可以选择另一个级别作为基线:How to force R to use a specified factor level as reference in a regression?