r中的因子变量

时间:2015-03-03 23:01:56

标签: r statistics glm categorical-data

我有一个数据集,其中包含r中的三个因子变量,我的glm模型的输出始终为每个单独的分类值提供估计值。我试图通过使用as.numeric命令来解决这个问题,如下所示,我在glm模型中使用了factor命令,但我仍然得到了相同的输出。

as.numeric(levels(Make))[as.integer(Make)]
as.numeric(levels(Zone))[as.integer(Zone)]
as.numeric(levels(Kilometres))[as.integer(Kilometres)]

对于glm模型,我选择使用默认链接功能进行伽马分配。

 Gamma = glm(perd ~ factor(Kilometres) + factor(Zone) + Bonus + factor(Make) + Insured, 
      family = Gamma(link = "inverse"))

我不知道如何更改代码,以便为整个变量提供回归估计。有什么想法?

1 个答案:

答案 0 :(得分:3)

  1. 不要将您的分类变量转换为数字变量 - 这将创建一个非常不同的模型[您的尝试无论如何都不会有效]
  2. 没有"回归"估计整个变量。如果分类变量具有n个类别,则标准方法将创建n-1个指标变量,每个变量将具有估计值。
  3. 您想测试删除分类变量的影响。
  4. glm帮助文件中的第一个示例给出了一个示例,其中您使用anova执行关于删除变量的影响的适当假设检验[偏差分析]

    # In your case
    anova(Gamma)
    
    # or
    drop1(Gamma)