我正在编写一些函数来从生存分析的结果中提取信息,并且在我提取95%置信区间所指定的较低和较高生存时间之间遇到了差异。从包本身报告的摘要。
我在R(v 3.1.2)中使用survival
包(v 2.37-7)。
所以我的问题是,有时我提取95%CI的下限和/或上限以获得中位生存时间与我刚评估survfit
的结果时返回的不一致。当我检查数据时,我认为survfit
的结果是错误的,它似乎返回边界+ 1值(有时也是)。以下是一些说明问题的数据。
# Fit my data stratified by gender of subject
survFit30Sex <- survfit(Surv(thirtyDaySuicides$daysFromInvestigation) ~ thirtyDaySuicides$Sex)
# Display median survival and confidence interval
survFit30Sex
Call: survfit(formula = Surv(thirtyDaySuicides$daysFromInvestigation) ~
thirtyDaySuicides$Sex)
records n.max n.start events median 0.95LCL 0.95UCL
thirtyDaySuicides$Sex=1 35 35 35 35 15 9 20
thirtyDaySuicides$Sex=2 93 93 93 93 9 6 13
survfit
分别将Sex = 1
的下边界和上边界确定为9天和20天,但当我检查数据时,似乎上边界应为19,而不是20
这是实际数据;我只是为Sex=1
展示,因为差异在哪里,
我还在关键区域之前和之后很好地删除了数值,以使数据更易于阅读
Call: survfit(formula = Surv(thirtyDaySuicides$daysFromInvestigation) ~
thirtyDaySuicides$Sex)
summary( thirtyDaySuicides$Sex=1 )
time n.risk n.event survival std.err lower 95% CI upper 95% CI
9 24 2 0.6286 0.0817 0.48725 0.811
10 22 1 0.6000 0.0828 0.45780 0.786
11 21 1 0.5714 0.0836 0.42890 0.761
13 20 1 0.5429 0.0842 0.40055 0.736
14 19 1 0.5143 0.0845 0.37272 0.710
15 18 1 0.4857 0.0845 0.34541 0.683
16 17 1 0.4571 0.0842 0.31861 0.656
17 16 3 0.3714 0.0817 0.24138 0.572
19 13 1 0.3429 0.0802 0.21673 0.542
20 12 2 0.2857 0.0764 0.16921 0.482
21 10 2 0.2286 0.0710 0.12437 0.420
22 8 1 0.2000 0.0676 0.10310 0.388
据我了解,中位生存时间的95%CI较低为0.34541。搜索生存列直到找到值
这让我觉得survival
包中有一些奇怪的错误(我怀疑),或者我找不到边界(最有可能)。
--------- 更新
不幸的是,我不知道如何将数据文件链接到我的问题,但数据很短,所以我可以把它放在这里。请注意,我通过性别来消除分层,以简化,因此这只是女性的数据,这是我得到差异的地方。
我发现我正在接近这个错误,也许95%的CI是从标准错误中计算出来的,而不是像我想象的那样抬头。但即使有了这个想法,我也遇到了类似的问题。更普遍的问题是,如何从生存对象中以时间为单位提取相应的95%CI,从而拉出第X百分位生存时间?
这是通过dput的生存输入数据,然后是下面的非结构化副本。
structure(list(daysFromInvestigation = c(27L, 27L, 10L, 20L,
15L, 21L, 27L, 1L, 9L, 22L, 29L, 14L, 4L, 19L, 7L, 3L, 2L, 7L,
21L, 4L, 17L, 20L, 16L, 2L, 9L, 7L, 17L, 2L, 17L, 26L, 25L, 11L,
3L, 13L, 27L), censored = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1)), class = "data.frame", row.names = c(NA, -35L), .Names = c("daysFromInvestigation",
"censored"))
daysFromInvestigation censored
1 27 1
2 27 1
3 10 1
4 20 1
5 15 1
6 21 1
7 27 1
8 1 1
9 9 1
10 22 1
11 29 1
12 14 1
13 4 1
14 19 1
15 7 1
16 3 1
17 2 1
18 7 1
19 21 1
20 4 1
21 17 1
22 20 1
23 16 1
24 2 1
25 9 1
26 7 1
27 17 1
28 2 1
29 17 1
30 26 1
31 25 1
32 11 1
33 3 1
34 13 1
35 27 1
答案 0 :(得分:0)
我对自己的问题有一个答案,如果不是最好的答案,至少是一个很好的答案。
我遇到的主要问题是未能使用加权平均值。在我的问题中,我对中位生存时间感兴趣,因此生存率= 0.5。但是我的数据并没有在精确的中位数时间内产生事件,因此我的生存概率为14天= 0.5143和15天= 0.4857,其加权平均值为15天。
第二个问题是误解了如何使用置信区间。为了匹配生存包报告的内容,要找到中位生存期间的下限,可以搜索下界向量以找到刚好小于中位数的第一个值,然后计算该值的加权平均值。低于中位数,正好在上方。同样,对于上限,搜索上限矢量以找到目标间隔,然后计算加权平均值。就我的例子而言,中位生存期的上限发生在19天到20天之间。加权平均值为20天。
我还没有深入了解生存代码以确认这是如何正确完成的,但在我的情况下,我已经有大约50种特定的生存期组合,可以查看不同的时间段和不同的版主并且我匹配生存包100%提供的中位数输出。
我希望遇到这个问题的任何人都能得到这个总结的帮助,如果有人想帮助纠正/改进我的理解,那么非常欢迎。