Question

我使用coxph模型来估计不同的协变量。

我模型中的一个协变量是一个名为LOCATION的分类变量，特别是地理变量，可以有四种状态：

Boston=1

NY=2

MIAMI=3

LA=4

我真的很困惑该函数如何处理分类变量。 Klein和Moeschberger（2005）在他们的书中写道＆＃34; Survial Analysis ..＆＃34;那个人应该将绝对视为傻瓜。因此我会创建三个虚拟变量：NY，MIAMI和LA，其中BOSTON将成为推荐组，我的模型看起来像这样：

这让我很好奇，因为如果这个模型应该是正确的，那么该函数应该自动理解波士顿是那个案例中的参考组吗？

另一方面，我曾经读到可以简单地将LOCATION变量转换为因子：

第二个模型对我来说更有意义，但是我真的很困惑，因为我引用的书说应该像1中那样对待它。（也许这本书已经老了？）

那么现在哪种模式正确？

谢谢，

KS

Answer 1

他们应该给你相同的东西（至少他们在普通的线性回归和GLM模型中）。如果你给R一个因子，它将使用你的第一个因子水平作为参考水平在“引擎盖下”创造假人。

带有因子的输出应该将因子名称列出三次，稍加修改以显示它所指的级别。