R绘制生存曲线并在特定时间计算P值

时间:2018-11-09 08:23:54

标签: r dataframe survival-analysis

我试图弄清楚如何生成生存曲线并计算特定时间点而不是整个生存曲线的P值。

我使用软件包survsurvfit中的survminersurvival方法创建生存对象,使用ggsurvplot绘制曲线,其p-值。

df_surv <- Surv(time = df$diff_in_days, event = df$survivalstat)
df_survfit <- survfit(dat_surv ~ Schedule, data = df)

ggsurvplot(
  df_survfit , 
  data = df,
  pval = TRUE
)

现在,它计算2500+天的整个曲线的p值。我还想以精确的时间间隔计算P值。假设我想知道/长达365天的生存概率。

我不能简单地切断生存时间超过x(例如365)天的所有记录,如下所示。然后,由于不考虑发生事件的对象晚于365年,因此所有生存概率均降至0%。

没有活动,也没有人活着超过x天。

df <- df[df$diff_in_days <= 365, ]

如何在特定时间从总体曲线计算P值?

我的数据框的dput(head(df)作为可重复的示例。

structure(list(diff_in_days = structure(c(2160, 84, 273, 1245, 
2175, 114), class = "difftime", units = "days"), Schedule = c(1, 
1, 1, 2, 2, 2), survivalstat = c(0, 1, 1, 0, 1, 1)), row.names = c(12L, 
28L, 33L, 38L, 58L, 62L), class = "data.frame")

我的数据框

  • UID(每行是一个新条目)
  • 事件发生的次数是/是(0,1)
  • 事件发生之前的天数(如果尚未发生,则是从监视开始到计算电流的天数(右删失))

编辑:

使用以下代码将365天后每个人的事件发生率设置为0。

dat$survivalstat <- ifelse(dat$diff_in_days > 365, 0, dat$survivalstat)

它确实计算p值,但仍在整个曲线上。 365天后,它将一直保持水平,直到2500+天为止(因为没有发生任何事件),并且365天之后的那些事件仍被考虑在内,因为它们仍在曲线中。 (我假设即使365之后的所有数据点都相同,它们仍然会影响P值吗?)

1 个答案:

答案 0 :(得分:2)

如果要在特定时间点使用p值,可以在特定时间点进行z检验。在下面的示例中,我使用了生存包中的肺部数据集。为了更好地帮助您查看此方法是否合适,我将在交叉验证中发布此问题。

library(survival)
library(dplyr)
library(broom)
library(ggplot2)
fit1 <- survfit(Surv(time,status)~sex,data = lung)
          #turn into df
df <- broom::tidy(fit1) 

fit_df <- df  %>% 
          #group by strata
          group_by(strata) %>% 
          #get day  of interest or day before it
          filter(time <= 365) %>% 
          arrange(time) %>% 
          # pulls last date
          do(tail(.,1))

#calculate z score based on 2 sample test at that time point
z <- (fit_df$estimate[1]-fit_df$estimate[2]) /
      (sqrt( fit_df$std.error[1]^2+ fit_df$std.error[2]^2))
#get probability of z score
pz <- pnorm(abs(z))
#get p value
pvalue <- round(2 * (1-pz),2)



ggplot(data = df,  aes(x=time, y=estimate, group=strata, color= strata)) +
  geom_line(size = 1.5)+
  geom_ribbon(aes(ymin = conf.low, ymax = conf.high), alpha = 0.2)+
  geom_vline(aes(xintercept=365))+
  geom_text(aes(x = 500,y=.8,label = paste0("p = " ,pvalue) ))+
  scale_y_continuous("Survival",
                     limits = c(0,1))+
  scale_x_continuous("Time")+
  scale_color_manual(" ", values = c("grey", "blue"))+
  scale_fill_discrete(guide = FALSE)+
  theme(axis.text.x = element_text(angle = 45, hjust = 1, size=14),
        axis.title.x = element_text(size =14),
        axis.text.y = element_text(size = 14),
        strip.text.x = element_text(size=14),
        axis.title.y = element_blank())+
  theme_bw()

enter image description here

更新-使用对数排名获取到特定时间点的p值

#First censor and make follow time to the time point of interest 
lung2 <- lung %>% 
          mutate(time2 = ifelse(time >= 365, 365, time),
                 status2 = ifelse(time >= 365, 1,status))
#Compute log rank test using survdiff
sdf <- survdiff(Surv(time2,status2)~sex,data = lung2)
#extract p-value
p.val <- round(1 - pchisq(sdf$chisq, length(sdf$n) - 1),3)

在上面的ggplot代码中,您可以将pvalue替换为p.val,以显示日志排名得分。