如何在gbm软件包分析中计算生存函数?

时间:2018-09-07 12:34:55

标签: r boosting

我想基于梯度增强模型分析数据。

另一方面,由于我的数据属于同类研究,因此我很难理解该模型的结果。

这是我的代码。根据示例数据进行分析。

install.packages("randomForestSRC")
install.packages("gbm")
install.packages("survival")

library(randomForestSRC)
library(gbm)
library(survival)

data(pbc, package="randomForestSRC")
data <- na.omit(pbc)

set.seed(9512)
train <- sample(1:nrow(data), round(nrow(data)*0.7))
data.train <- data[train, ]
data.test <- data[-train, ]

set.seed(9741)
gbm <- gbm(Surv(days, status)~.,
           data.train,
           interaction.depth=2,
           shrinkage=0.01,
           n.trees=500,
           distribution="coxph")

summary(gbm)


set.seed(9741)
gbm.pred <- predict.gbm(gbm, 
                        n.trees=500,
                        newdata=data.test, 
                        type="response") 

当我阅读documnet软件包时,“ gbm.pred”是cox的部分可能性的结果。

set.seed(9741)
lambda0 = basehaz.gbm(t=data.test$days, 
                      delta=data.test$status,  
                      t.eval=sort(data.test$days), 
                      cumulative = FALSE, 
                      f.x=gbm.pred, 
                      smooth=T)

hazard=lambda0*exp(gbm.pred)

在此代码中,lambda0是基准风险函数。

因此,根据公式:h(t / x)= lambda0(t)* exp(f(x))

“危险”是危险功能。

但是,我想计算的是“生存功能”。

因为,我想将原始数据(data $ status)的结果与预测结果(生存函数)进行比较。

请让我知道如何计算生存函数。

谢谢

1 个答案:

答案 0 :(得分:0)

实际上,回报是累积基准风险函数(整数部分:\int^t\lambda(z)dz),生存函数可以如下计算:

s(t|X)=exp{-e^f(X)\int^t\lambda(z)dz}

f(X)是gbm的预测,等于对数风险比。

我认为有关基于gbm的生存分析的本教程对您有所帮助!

https://github.com/liupei101/Tutorial-Machine-Learning-Based-Survival-Analysis/blob/master/Tutorial_Survival_GBM.ipynb