我是Stack Overflow的新手!如果这是一个愚蠢或令人困惑的问题,请提前抱歉。
我有一套正确的审查纵向数据(又名生存数据),其中包含工人的失败(辞职)时间,工作地点和月薪。我的目标是预测/模拟每个工人的失败时间。因此,如果时间变化很小,危险率接近条件失败概率,我决定根据Cox比例风险模型模拟每个工人的失败时间。以下是我的步骤:
4.1
我使用均匀分布来生成每个模拟日的随机概率,而失败日是工人的危险率大于生成概率的第一个模拟日。我重复这个步骤进行n次迭代。然而,这个结果包含大量的“南”,因为一些工人没有任何危险率更大的生成概率。因此,很难确定故障时间。
4.2
我只是将具有最大个人危险率的模拟日视为每个工人的失败时间。然而,这种方式效果不佳,因为工人可能具有非常恒定和较小的个人危险率。
我尝试过参数化模型,但由于我的数据集非常大(> 800000行),因此计算需要超长时间
我的问题:有没有建议模拟/预测每个工人的失败时间?
非常感谢!
杰夫