我想探索以下变量及其双向互动作为可能的预测因素:兄弟姐妹(nsibs),断奶年龄(wmonth),母亲年龄(mthage),种族,贫困,出生体重(bweight)和母亲的数量吸烟(吸烟)。
我创建了我的Cox回归公式,但我不知道如何与预测变量形成双向交互:
coxph(Surv(wmonth,chldage1)~as.factor(nsibs)+mthage+race+poverty+bweight+smoke,data=pneumon)
final<-step(coxph(Surv(wmonth,chldage1)~(as.factor(nsibs)+mthage+race+poverty+bweight+smoke)^2,data=pneumon),direction='backward')
答案 0 :(得分:1)
coxph
的公式界面与lm
或glm
的公式界面相同。如果您需要形成所有双向交互,则使用^
- 运算符,其中第一个参数为协变量的“和”,第二个参数为2
:
coxph(Surv(wmonth,chldage1) ~
( as.factor(nsibs)+mthage+race+poverty+bweight+smoke)^2,
data=pneumon)
我认为没有Cox回归step
降压功能。 Thereau过去已经说过要使这个过程易于自动化。正如罗兰在评论中指出的那样,所有R核心软件包作者的普遍看法是逐步程序在统计上是可疑的。 (当人们从SPSS或SAS跨越到R时,这通常会产生一些文化冲击,其中文化更接受逐步程序,社会科学统计课程似乎认可该方法。)
首先,您需要解决数据是否有足够的事件来支持这种复杂模型的问题。 Cox模型的统计功效由事件数量驱动,而不是风险受试者数量。一个公认的不完美的经验法则是,每个协变量需要10-15个事件,并且通过将相互作用扩展10倍,您可以用相似的因子扩展所需的事件数量。
Harrell在他的RMS书和rms
中讨论了这些问题 - 包装文件和倡导者在任何选择方法的过程中对协变量估计应用收缩。这将是一个更具统计学意义的原则。
如果您确实拥有如此庞大的数据集且您的调查领域中没有关于哪种协变量相互作用更可能重要的理论,那么另一种方法是检查完整的交互模型,然后继续观察每个修改模型会增加整个过程的自由度。我过去曾遇到过这样的情况(成千上万的事件,风险数百万),我的方法是保持符合更严格的统计理论的相互作用。我将这种方法限制在被认为相关的变量组中。我首先检查了它们的双向相关性。除了吸烟和性别以及5个连续协变量之外,我的模型中没有分类变量,我保持双向相互作用,其中三角形偏差(分布为卡方统计量)测量值为30或更高。因此,我保留了“实现重要性”的互动,其中隐含的自由度远远高于天真的软件列表。我还比较了保留的协变量相互作用的结果,有没有去除的相互作用,以确保过程没有有意义地改变预测效果的大小。我还使用了Harrell的rms-package的验证和校准程序。