对分类数据建模:假人或因素?

时间:2017-10-19 14:21:36

标签: r

我使用coxph模型来估计不同的协变量。

我模型中的一个协变量是一个名为LOCATION的分类变量,特别是地理变量,可以有四种状态:

Boston=1

NY=2

MIAMI=3

LA=4

我真的很困惑该函数如何处理分类变量。 Klein和Moeschberger(2005)在他们的书中写道" Survial Analysis .."那个人应该将绝对视为傻瓜。 因此我会创建三个虚拟变量:NY,MIAMI和LA,其中BOSTON将成为推荐组,我的模型看起来像这样:

  1. coxph(surv(start,event)~NY+MIAMI+LA, data=FNMA) (虚拟模型)
  2. 这让我很好奇,因为如果这个模型应该是正确的,那么该函数应该自动理解波士顿是那个案例中的参考组吗?

    另一方面,我曾经读到可以简单地将LOCATION变量转换为因子:

    1. coxph(surv(start,event)~factor(LOCATION), data=FNMA) (因素模型)
    2. 第二个模型对我来说更有意义,但是我真的很困惑,因为我引用的书说应该像1中那样对待它。(也许这本书已经老了?)

      那么现在哪种模式正确?

      谢谢,

      KS

1 个答案:

答案 0 :(得分:1)

他们应该给你相同的东西(至少他们在普通的线性回归和GLM模型中)。如果你给R一个因子,它将使用你的第一个因子水平作为参考水平在“引擎盖下”创造假人。

带有因子的输出应该将因子名称列出三次,稍加修改以显示它所指的级别。