适合离散数据:负二项式,泊松,几何分布

时间:2019-12-12 15:57:16

标签: python scipy statistics distribution

在scipy中,不支持使用数据拟合离散分布。我知道这有很多话题。

例如,如果我有一个如下数组:

  

x = [2,3,4,5,6,7,0,1,1,0,1,8,10,9,1,1,1,0,0]

我无法申请此数组;

from scipy.stats import nbinom
param = nbinom.fit(x)

但是我想问您最新的情况,有什么方法可以拟合这三个离散分布,然后为离散数据集选择最佳拟合吗?

1 个答案:

答案 0 :(得分:2)

您可以使用Method of Moments来适应任何特定的发行版。

基本思想:首先获取经验矩,第二矩等,然后从这些矩导出分布参数。

因此,在所有这些情况下,我们只需要两分钟。让我们得到它们:

import pandas as pd
# for other distributions, you'll need to implement PMF
from scipy.stats import nbinom, poisson, geom

x = pd.Series(x)
mean = x.mean()
var = x.var()
likelihoods = {}  # we'll use it later

注意:我用熊猫代替了numpy。那是因为numpy的var()std()并不适用Bessel's correction,而大熊猫的则适用。如果您有100多个样本,则差异不会太大,但是在较小的样本上,它可能很重要。

现在,让我们获取这些分布的参数。 Negative binomial有两个参数:p,r。让我们估计它们并计算数据集的可能性:

# From the wikipedia page, we have:
# mean = pr / (1-p)
# var = pr / (1-p)**2
# without wiki, you could use MGF to get moments; too long to explain here
# Solving for p and r, we get:

p = 1 - mean / var  # TODO: check for zero variance and limit p by [0, 1]
r = (1-p) * mean / p

UPD::Wikipedia和scipy使用不同的p定义,一种将其视为成功的概率,另一种视为失败的概率。因此,要与scipy概念保持一致,请使用:

p = mean / var
r = p * mean / (1-p)

UPD结束

计算可能性:

likelihoods['nbinom'] = x.map(lambda val: nbinom.pmf(val, r, p)).prod()

Poisson相同,只有一个参数:

# from Wikipedia,
# mean = variance = lambda. Nothing to solve here
lambda_ = mean
likelihoods['poisson'] = x.map(lambda val: poisson.pmf(val, lambda_)).prod()

Geometric distribution相同:

# mean = 1 / p  # this form fits the scipy definition
p = 1 / mean

likelihoods['geometric'] = x.map(lambda val: geom.pmf(val, p)).prod()

最后,让我们最合适:

best_fit = max(likelihoods, key=lambda x: likelihoods[x])
print("Best fit:", best_fit)
print("Likelihood:", likelihoods[best_fit])

如果您有任何疑问,请告诉我