拟合早期数据值的离散(负二项式)分布

时间:2014-01-05 10:37:34

标签: probability missing-data statistics model-fitting

我在拟合离散分布函数方面遇到了一些困难(我特意使用负二项分布)。这是我的设置:我有一个传入项目的来源,每个项目都有未知的生命周期。每天,有些过期(第一天很大一部分,第二天更多,等等)。对于传入项目的现有来源(来源超过180天),我已设法将负项二项分布的新项目的生命周期建模为可接受的误差(使用MLE - 最大似然估计)。

我的问题始于新来源的来源。我想估计他们的物品在短时间后(例如,5-7天后)的寿命分布。当我尝试应用MLE时,我得到明显更低的平均值(即3而不是30)。我认为这是因为MLE无法理解最后一天(第7天)质量实际上是1-CDF(6)(前6天的累积分布函数)并且实际上也包含生物物品。

是否有一种很好的方法可以根据早期数据值和其他值的质量总和来拟合离散分布?我可以为它写一些优化函数,只给前6天的权重,但我觉得它会给我次优的性能。

我对理论解释很满意,但如果你能解决特定的函数或库,我可以在Matlab,R,Python和C#中工作。

1 个答案:

答案 0 :(得分:0)

您遇到的问题称为“审查”数据。基本上你只是某些项目的生命周期大于(现在减去开始时间)。您对如何纠正似然函数的猜测正指向正确的方向。我认为审查数据通常在关于生存分析的文本中被考虑。维基百科的文章[1]对可能有所帮助的审查数据做了一些简短的评论。

R中有一个用于生存分析的包,名为“生存”。可能还有其他R套餐。 Dunno关于其他系统的包装。

[1] http://en.wikipedia.org/wiki/Survival_analysis