我正在完成Singer和Willett关于扩展Cox回归模型的 Applied Longitudinal Data-Analysis 的第15章,但是加州大学洛杉矶分校网站here没有示例R代码章节。我正在尝试重新创建关于时变协变量的部分,并坚持如何从提供的人员级数据框创建计数流程数据集。我查看了survival
包小插图,但是在创建自己的数据集时遇到了问题。这是玩具数据模仿Singer和Willett的例子,预测17至40岁男性首次使用可卡因的时间。 id
是ID,ageInit
是第一次使用可卡因或审查的年龄,used
是事件日志,表示首次使用可卡因(1
)或审查({{1} }})。有一次不变预测器0
,表明在17岁之前使用大麻。还有三个时变协变量需要通知数据集的创建:earlyMJ
,即17岁后第一次吸食大麻的年龄,timeMJ
是销售大麻的年龄,{{1这是第一次使用其他药物的年龄。这些预测变量中的sellMJ
表示参与者在任何时候都没有执行相关操作。
odFirst
根据Therneau等人的NA
小插图的过程,我们创建了第二个数据集,在这种情况下重新表达结果变量set.seed(1356)
df <- data.frame(id = 1:6,
ageInit = c(25,34,40,29,27,40),
used = c(0,1,1,0,1,1),
earlyMJ = c(0,0,1,0,1,1),
timeMJ = c(18,27,22,21,22,19),
sellMJ = c(NA,NA,25,NA,35,NA),
odFirst = c(19,22,35,NA,22,34))
,时变预测变量作为年数从研究开始(即17岁)。
survival
我们将这个新数据与原始数据集合并,通过ageInit
调用创建两个表示每个协变量的时间间隔的新列。我们还通过tdata <- with(df, data.frame (id = id,
usedTime = ageInit - 17,
timeToFirstMJ = timeMJ - 17,
timeToSellMJ = sellMJ - 17,
timeToFirstOD = odFirst - 17,
usedCocaine = used))
调用为每个参与者创建一个新的行,每次他们遇到一个协变量事件。
event()
问题在于,当我运行Cox回归时,同时使用时不变和一些时变协变量,我无法使模型工作。
tdc()
并获得无意义的系数和警告信息
sdata <- tmerge(df, tdata,
id=id,
firstUse = event(futime, usedCocaine),
t1MJ = tdc(timeToFirstMJ),
t1SMJ = tdc(timeToSellMJ),
t1OD = tdc(timeToFirstOD),
options= list(idname="subject"))
attr(sdata, "tcount")
此外,我甚至不知道这是否是一个正确的计数过程数据帧,因为在Singer和Willett中,他们建议每个参与者每次任何人在数据集中遇到事件需要有一行。
非常感谢对这些事项的任何指导。
答案 0 :(得分:3)
良好的开端是survival
包中的Using Time Dependent Covariates and Time Dependent Coefficients in the Cox Model小插图。
问题是当我运行Cox回归时,同时使用时不变和一些时变协变量,我无法使模型工作。
乍一看你做的似乎是正确的,但事实上你可能只有6个人和3个参数进行估算?
获取无意义的系数和警告信息
警告很有道理。两个参数估计值的标准误差大于1000.见下文。
此外,甚至不知道这是否是一个正确的计数过程数据帧,因为在Singer和Willett中,他们建议每个参与者都需要在数据集中的任何人遇到事件时都有一行。
这是在coxph
内部处理的。
以下是重现结果的代码
#####
# setup data
df <- data.frame(id = 1:6,
ageInit = c(25,34,40,29,27,40),
used = c( 0, 1, 1, 0, 1, 1),
earlyMJ = c( 0, 0, 1, 0, 1, 1),
timeMJ = c(18,27,22,21,22,19),
sellMJ = c(NA,NA,25,NA,35,NA),
odFirst = c(19,22,35,NA,22,34))
shift_cols <- c("ageInit", "timeMJ", "sellMJ", "odFirst")
df[shift_cols] <- lapply(df[shift_cols], "-", 17)
library(survival)
est_df <- df[, c("id", "ageInit", "earlyMJ", "used")]
est_df <- tmerge(
est_df, est_df, id = id, start_using = event(ageInit, used))
est_df <- tmerge(
est_df, df, id = id,
t1MJ = tdc(timeMJ), t1SMJ = tdc(sellMJ), t1OD = tdc(odFirst))
#####
# fit model
fit <- coxph(
Surv(tstart, tstop, start_using) ~ earlyMJ + t1SMJ + t1OD, data = est_df)
#R> Warning message:
#R> In fitter(X, Y, strats, offset, init, control, weights = weights, :
#R> Loglik converged before variable 1,3 ; beta may be infinite.
summary(fit)
#R> Call:
#R> coxph(formula = Surv(tstart, tstop, start_using) ~ earlyMJ +
#R> t1SMJ + t1OD, data = est_df)
#R>
#R> n= 17, number of events= 4
#R>
#R> coef exp(coef) se(coef) z Pr(>|z|)
#R> earlyMJ 2.047e+01 7.792e+08 2.791e+04 0.001 0.999
#R> t1SMJ 4.744e-16 1.000e+00 1.414e+00 0.000 1.000
#R> t1OD 4.157e+01 1.136e+18 3.883e+04 0.001 0.999
#R>
#R> exp(coef) exp(-coef) lower .95 upper .95
#R> earlyMJ 7.792e+08 1.283e-09 0.00000 Inf
#R> t1SMJ 1.000e+00 1.000e+00 0.06255 15.99
#R> t1OD 1.136e+18 8.806e-19 0.00000 Inf
#R>
#R> Concordance= 1 (se = 0.258 )
#R> Rsquare= 0.273 (max possible= 0.33 )
#R> Likelihood ratio test= 5.42 on 3 df, p=0.1437
#R> Wald test = 0 on 3 df, p=1
#R> Score (logrank) test = 4.14 on 3 df, p=0.2463