Chi Square测试使用Frequencies,Bins,CDF,Python

时间:2010-10-24 20:17:03

标签: python statistics

我正试图从头开始编写一个卡方形优度拟合测试,而不使用任何外部函数。下面的代码报告“1”表示拟合,即使scipy.stats中的kstest返回零。数据正常分布,所以我的函数也应该返回零。

import numpy as np
from scipy.stats import chi2
from scipy.stats import beta
from scipy.stats import kstest
from scipy.stats import norm

preds = norm.rvs(5,2,size=200)
preds.sort()

bin_size = 30
bins = np.linspace(0,10,bin_size)
counts = np.digitize(preds, bins)
mean = 5
var = 2

sum = 0
for i in range(len(bins)-1):
    p = beta.cdf(bins[i+1], mean, var) - beta.cdf(bins[i], mean, var)  
    freq = len(counts[counts==i]) / float(len(counts))    
    sum = sum + ((freq - p)**2)/p

dof = len(counts)-2
pval = 1 - chi2.cdf(sum, dof)
print pval

在代码中,我创建了分档,根据分档测量频率,使用Beta分布CDF计算预期频率,并将其求和得到X ^ 2检验统计量。

最近的电话是

print kstest(preds, 'beta', [mean, var])

我在这里做错了什么?

谢谢,

2 个答案:

答案 0 :(得分:3)

我认为您对自己问题的回答是正确的,并且您的代码中存在一系列问题。

首先,根据您的实施,使用len(counts)-2计算的自由度与len(preds)-2相同。所以改变它并没有任何区别。

其次,要对参数拟合进行Chi ^ 2检验,您需要构建一些MECE的bin,这意味着bin之间没有重叠,它们共同跨越X的所有可能值。但是,通过使用bins = np.linspace(0,10,bin_size)设置您的垃圾箱,您强制最右边的垃圾箱停在10。而高斯分布跨越-inf到inf。因此,您生成的随机数有可能会超过10

但与此相比,这可能不是一个问题:每个垃圾箱的计数数量通常要求至少为5。但是,使用您的方法来计算落入箱中的数字(这里设置为30个箱)可能并且实际上几乎总是具有低于5的数字,并且甚至在任何箱中的0 0计数在随后的{{1}中导致无穷大计算,无论合适的好坏,都可以给予拒绝。而且我认为这就是为什么在将自由度改为sum之后得到0的原因,你恰好在bin计数中至少有一个0。

另一个问题是Chi ^ 2的计算。我认为你不使用频率,而是每个箱子中的实际数量:

len(preds)-2

因此,p = beta.cdf(bins[i+1], mean, var) - beta.cdf(bins[i], mean, var) p = p*200 freq = len(counts[counts==i]) sum = sum + ((freq - p)**2)/p p都是每个类别中的计数数,而不是相对频率。但我对此并不完全确定。

最后,dof的定义是箱数 - 适合的参数数量(此处为2)-1。 所以如果你有10个箱子,freq。在你的代码中,这是'200 - 2 = 198'。具有如此大自由度的chi ^ 2分布非常平坦,这意味着您需要非常大的chi ^ 2值来拒绝拟合。这就是你使用代码的原因。

答案 1 :(得分:0)

DOF定义存在问题:

dof = len(preds)-2

是正确的选择。此外,我必须将bin大小减小到15才能获得一致的'0'结果。众所周知,Chi ^ 2测试对箱尺寸敏感。