我使用coxph模型来估计不同的协变量。
我模型中的一个协变量是一个名为LOCATION的分类变量,特别是地理变量,可以有四种状态:
Boston=1
NY=2
MIAMI=3
LA=4
我真的很困惑该函数如何处理分类变量。 Klein和Moeschberger(2005)在他们的书中写道" Survial Analysis .."那个人应该将绝对视为傻瓜。 因此我会创建三个虚拟变量:NY,MIAMI和LA,其中BOSTON将成为推荐组,我的模型看起来像这样:
coxph(surv(start,event)~NY+MIAMI+LA, data=FNMA)
(虚拟模型) 这让我很好奇,因为如果这个模型应该是正确的,那么该函数应该自动理解波士顿是那个案例中的参考组吗?
另一方面,我曾经读到可以简单地将LOCATION变量转换为因子:
coxph(surv(start,event)~factor(LOCATION), data=FNMA)
(因素模型) 第二个模型对我来说更有意义,但是我真的很困惑,因为我引用的书说应该像1中那样对待它。(也许这本书已经老了?)
那么现在哪种模式正确?
谢谢,
KS
答案 0 :(得分:1)
他们应该给你相同的东西(至少他们在普通的线性回归和GLM模型中)。如果你给R一个因子,它将使用你的第一个因子水平作为参考水平在“引擎盖下”创造假人。
带有因子的输出应该将因子名称列出三次,稍加修改以显示它所指的级别。