我正在尝试使用statsmodels将泊松分布拟合到我的数据中,但我对我得到的结果以及如何使用该库感到困惑。
我的真实数据将是一系列数字,我认为我应该能够将其描述为具有泊松分布加上一些异常值,因此最终我希望能够很好地拟合数据。
然而,出于测试目的,我只使用scipy.stats.poisson
创建数据集samp = scipy.stats.poisson.rvs(4,size=200)
所以为了适应这种情况,我认为我只需要一个常数' endog'
res = sm.Poisson(samp,np.ones_like(samp)).fit()
print res.summary()
Poisson Regression Results
==============================================================================
Dep. Variable: y No. Observations: 200
Model: Poisson Df Residuals: 199
Method: MLE Df Model: 0
Date: Fri, 27 Jun 2014 Pseudo R-squ.: 0.000
Time: 14:28:29 Log-Likelihood: -404.37
converged: True LL-Null: -404.37
LLR p-value: nan
==============================================================================
coef std err z P>|z| [95.0% Conf. Int.]
------------------------------------------------------------------------------
const 1.3938 0.035 39.569 0.000 1.325 1.463
==============================================================================
好的,这看起来并不正确,但如果我这样做
res.predict()
我得到一个4.03的数组(这是该测试样本的平均值)。 所以基本上,首先我很困惑如何从statsmodel解释这个结果,其次我应该做一些完全不同的事情,如果我对分布的稳健参数估计感兴趣而不是拟合趋势但是我应该怎么做呢?
修改 我应该给出更多细节以回答我问题的第二部分。
我有一个事件发生在一个开始时间后的随机时间。当我绘制许多事件的延迟时间的直方图时,我看到分布看起来像一个缩放的泊松分布加上几个异常点,这些异常点通常是由我的底层系统中的问题引起的。所以我只是想找到数据集的预期时间延迟,不包括异常值。如果不是异常值,我可以简单地找到平均时间。我想我可以手动排除它们,但我认为我可以找到更严格的东西。
修改 在进一步反思时,我会考虑其他发行版,而不是坚持使用Poissonion,我的问题的细节可能会分散原始问题,但无论如何我都把它们留在了这里。
答案 0 :(得分:7)
泊松模型与广义线性模型族或其他离散数据中的大多数其他模型一样,假设我们有一个将预测限制在适当范围内的变换。
Poisson适用于非负数,变换为exp
,因此估算的模型假定观察的预期值,以解释变量为条件
E(y | x) = exp(X dot params)
要获得泊松分布的lambda参数,我们需要使用exp,即
>>> np.exp(1.3938)
4.0301355071650118
predict
默认情况下执行此操作,但您只能使用关键字参数请求线性部分(X dot params)
。
离群值稳健估算
问题的最后一部分的答案是,就我所知,目前在Python中对泊松或其他计数模型没有异常强大的估计。
对于过度分散的数据,方差大于均值,我们可以使用NegativeBinomial回归。对于Poisson中的异常值,我们必须使用R / Rpy或手动修整异常值。 异常值识别可以基于标准化残差之一。
在某些时候,它不会在statsmodels中可用,除非有人为此做出贡献。