基于Cox比例风险模型预测故障时间

时间:2018-05-07 03:57:36

标签: python prediction survival-analysis cox-regression

我是Stack Overflow的新手!如果这是一个愚蠢或令人困惑的问题,请提前抱歉。

我有一套正确的审查纵向数据(又名生存数据),其中包含工人的失败(辞职)时间,工作地点和月薪。我的目标是预测/模拟每个工人的失败时间。因此,如果时间变化很小,危险率接近条件失败概率,我决定根据Cox比例风险模型模拟每个工人的失败时间。以下是我的步骤:

  1. 我将原始数据集拆分为训练和测试集。训练集用于训练Cox比例风险模型。
  2. 根据估算的系数,我估算了累积基线危险函数,从而可以获得基线危险函数。
  3. 我计算了每个时间段和工人的个人危险率(基于测试集)。我构建了一个矩阵(列=模拟日,行=工人)来存储所有费率。
  4. 我选择了两种方法来模拟/预测每个工人的失败时间:
  5. 4.1

    我使用均匀分布来生成每个模拟日的随机概率,而失败日是工人的危险率大于生成概率的第一个模拟日。我重复这个步骤进行n次迭代。然而,这个结果包含大量的“南”,因为一些工人没有任何危险率更大的生成概率。因此,很难确定故障时间。

    4.2

    我只是将具有最大个人危险率的模拟日视为每个工人的失败时间。然而,这种方式效果不佳,因为工人可能具有非常恒定和较小的个人危险率。

    我尝试过参数化模型,但由于我的数据集非常大(> 800000行),因此计算需要超长时间

      

    我的问题:有没有建议模拟/预测每个工人的失败时间?

    非常感谢!

    杰夫

0 个答案:

没有答案