我们正在尝试重现R中加密失效时间(船尾)模型的结果,该模型已在SAS中编码。
我们使用的数据集是here
在那里你也可以找到SAS代码。
formula <- survreg(Surv(Duration, Censor) ~ Acq_Expense + Acq_Expense_SQ + Ret_Expense + Ret_Expense_SQ + Crossbuy + Frequency + Frequency_SQ + Industry + Revenue + Employees, dist='weibull', data = daten [daten$Acquisition==1, ])
out1 <- survreg(formula = formula, data = daten [daten$Acquisition==1, ], dist = "weibull")
summary(out1)
ind <- c("Duration", "Censor")
err.mat <- ???
out2 <- simexaft(formula = formula, data = daten [daten$Acquisition==1, ], SIMEXvariable = ind, repeated = FALSE, err.mat = err.mat, dist = "weibull")
summary(out2)
我们的问题是如何定义err.mat术语? err.mat指定具有测量误差的变量。由于我们的数据集是正确的审查,我认为测量误差的变量可能是持续时间和/或审查员。但它并不那么简单,err.mat必须是方形对称数字矩阵。
答案 0 :(得分:1)
如果您阅读Journal of Statistical Software,January 2012, Volume 46, article describing the simexaft package,很明显,在没有重复测量来估算数据测量误差的情况下,您必须自己从领域知识中提供这些估算值。请参阅第6-8页的示例。另请参阅引用的"Statistics in Medicine" article available at Dr Yi's website。在该示例中,测量误差是前两个预测变量,收缩压(SBP)和血清胆固醇(CHOL)。如果您正在使用从中提取该数据的文本,那么您将需要阅读章节文本(该网站似乎不可用)以确定它们对测量错误的假设。