我有一个数据集,说明针对特定方法完成一项任务需要花费多少天。以我的数据而言,任务大部分时间是在5-10天左右完成的,然后呈指数下降直到100天。使用箔纸代码,我对两种方法进行了概率分布:
sns.distplot(same['delta days'], kde=False, fit=stats.gamma, label='Method 1')
sns.distplot(diff['delta days'], kde=False, fit=stats.gamma, label='Method 2').set_title('Probability of finishing task within x days')
plt.legend(loc='best')
plt.show()
我希望能够采用一种方法,并且在完成工作的天数(增量天数)下,获得该可能性在正常范围内的百分比。
我尝试过:
likelihood = np.log(norm.pdf(delta_days, mean, std))
但是,我的分布不是正态分布,也不是半正态分布,我认为它是歪斜的,因此我无法弄清楚如何使歪斜,局部和峰度起作用,以便我可以确定我基于我的数据。还有,为什么最高概率是0.03?