对于我的数据集,我可以使用scipy.stats函数来拟合最佳分布。例如,最佳分布是:
In[94]: best_dist
Out[94]: <scipy.stats._continuous_distns.chi_gen at 0x119649cd0>
In[95]: best_fit_params
Out[95]:
(0.40982879700171049,
0.10387428783818109,
-4.5566762564110859e-19,
0.89837054605455657)
现在我试图使用ppf
函数获得与CDF曲线的95%区域相对应的值。这给出了:
In[96]: best_dist.ppf(0.95,best_fit_params)
Out[96]: array([ 1.44854045, 0.74815691, nan, 1.89330302])
我无法理解为什么当我只期望一个值时,会返回长度为4的数组?如果其中一个是我的答案,那么那个是什么?
答案 0 :(得分:2)
正确用法是打开您的best_fit_param
:
In [1]: param = (0.40982879700171049,
...: 0.10387428783818109,
...: -4.5566762564110859e-19,
...: 0.89837054605455657)
In [2]: from scipy.stats import beta
In [3]: beta.ppf(0.95, *param) # notice the asterisk
Out[3]: 0.89837054605311872
说明:beta.shapes
为"a, b"
,因此beta.ppf
的签名实际为ppf(self, q, a, b, loc=0, scale=1)
。您的best_fit_param
是四个值的元组,分别为a,b,loc和scale。
我不确定你的In[96]
。在任何合理的最近scipy安装调用带有两个参数的ppf应该出错,我想(因为它需要至少三个:q
一个,a
和{{1}两个})。