如何使用决策树进行生存分析?

时间:2021-03-25 13:04:27

标签: python survival-analysis scikit-survival

我在 Python 中理解和应用决策树进行生存分析时遇到问题。我有一个数据集,其中包含变量年龄、体重、肿瘤大小、体积……(所有浮点数),我想知道是否与总生存率相关(也是浮点数)。

但是我该如何应用决策树呢?在文献中,我只看到 y_train 必须是分类变量(例如 0 或 1,良性或恶性,...)的示例,但它不适用于浮点数等连续变量。

但是,我想创建一个决策树,以便最终您可以发现当肿瘤大小 > xx 和体积 >yy 时,您预测的总生存期约为 < zzz。

有人可以帮我解决问题吗?有谁知道在哪里可以阅读有关此主题的更多信息?

1 个答案:

答案 0 :(得分:1)

Scikit-survival 包提供了一些集成决策树模型,如 RandomSurvivalForest 和经典模型,如 Cox 模型 CoxPhSurvivalAnalysis

文档提供了很好的代码 example。关于目标变量 y,至少在这种情况下,文档说明

<块引用>

y – 一个结构化数组,包含二元事件指示器作为第一个字段,事件时间或审查时间作为第二个字段。