适合正常分布的优点

时间:2015-08-20 09:35:40

标签: python static normal-distribution chi-squared goodness-of-fit

我正在尝试使用基于卡方的标准来估计正态分布误差的拟合优度。

具体来说,我有一个样本和它的估计。从那里我用近似计算误差。我现在将这些误差用作新的假设正态分布式观测值O,其中预期的理论观测值E现在是这些误差的平均值或0(您希望估计值是完美的)。

对于精确拟合,使用https://en.wikipedia.org/wiki/Goodness_of_fit卡方统计量应该等于1,这是我以前没有预料到的。

我想要近似拟合,我得到的是卡方统计量等于~1.3 - 1.5。在小样本上,这些有时会变成2-3。

这被认为是一种可忍受的适合吗?

我在python中实现了这个,所以代码是

def chi_squared(error,mean,var,N,n):
    return ((error)**2/var).sum(0)/(N - n - 1)

def chi_squared(error,mean,var,N,n):
    return ((error - mean)**2/var).sum(0)/(N - n - 1)

其中N是观察数(len(错误))和n = 2(我试图拟合的参数数量是mean和var)。

它的效果非常好(我认为)只有6-8次观察,这很奇怪,因为你需要足够的统计来逼近高斯(至少10个样本等等) - 我希望更高的chi-值统计...

数据样本:

[-0.626637 -0.466102 0.235232 -1.803282 -0.376370 -0.891675 -0.347168 0.000000]

从这里我计算均值和var并应用上面的过程(我的真实数据是pd.DF,其中每列包含如上所述的系列,因此.sum(0)。使用时可以与sum()一起使用其他数据类型)

根据@tom的评论:我使用的数据是数字而不是分类,因此使用scipy.stats.chisquare是不可能的。似乎我需要自己计算chi统计量和p值,除非有办法直接从python中做到这一点?

提前谢谢。

0 个答案:

没有答案