scipy.stats.chisquare没有提供输入数据所期望的结果

时间:2019-04-10 17:45:27

标签: python scipy chi-squared

我有一些要拟合的数据,然后执行卡方检验以获得拟合优度。很明显,我要应用的拟合度不能很好地拟合数据(这本身不是问题,我不一定期望如此),但是返回的值scipy.stats.chisquare会建议几乎完美的配合,这显然是错误的。

到目前为止,我所做的是定义一个描述我要应用的拟合的函数(正弦拟合),然后使用scipy.optimize.curve_fit通过从popt获取拟合参数来将该函数拟合到我的数据中,然后使用它们在先前定义的函数中生成拟合。

然后,我将测量的数据和拟合的数据放入scipy.stats.chisquare中,以尝试拟合,但返回的p值为1.0,这是不正确的。我的假设是,在scipy.stats.chisquare中使用scipy.optimize.curve_fit生成的值存在一些问题,但是如果是这种情况,我不知道为什么会出现问题或如何解决。

我将测量数据存储在两个列表中,下面分别称为“时间”和“费率”

import numpy as np
import math
%matplotlib inline
import matplotlib.pyplot as plt
from statistics import stdev
import scipy


time =[309.6666666666667, 326.3333333333333, 334.6666666666667, 399.9166666666667, 416.5833333333333, 433.25, 449.91666666666663, 466.58333333333337, 483.25, 499.91666666666663,]

rate = [0.298168, 0.29317, 0.306496, 0.249861, 0.241532, 0.241532, 0.206552, 0.249861, 0.253193, 0.239867]

def oscillation(t,A,C):
    return(A*np.cos((2*np.pi*(t-x0))/(t0))+C)
t0 = 365.25
A = 0.35/2
x0 = 152.5
C = 0.475

popt, pcov = curve_fit(oscillation, time, rate, p0=[A,C])


rate_fit = []

for t in time:
    r = oscillation(t, popt[0],popt[1])
    rate_fit.append(r)

print(scipy.stats.chisquare(rate, f_exp=rate_fit))

plt.plot(time,rate, '.')
plt.plot(time,rate_fit,'--')

上面的输出是拟合的,看起来像对数据的最佳拟合,但显然不是完美的拟合,使其他输出的p值为0.99999999999458533,这显然是错误的

1 个答案:

答案 0 :(得分:0)

您只适合使用两个参数AC,因此会强制相位和周期。
如果您还适合阶段和期间,那么您会更适合:

enter image description here

在这种情况下,我的p值为1.0。

x0t0固定时,您的p值为1.0的原因是,您的结果是{{1}的那些值可以使的最佳拟合}和x0 。强迫这些价值观,很可能会导致总体上更加糟糕。为了进行比较,我免费使用t0x0

t0

将其与A = -3.45840427e-02 C = 2.65142203e-01 x0 = 1.88838771e+02 t0 = 2.61112538e+02 t0 = 365.25进行比较。

当然,您有一些(物理)原因要修复,例如x0 = 152.5到一年,但是在这种情况下,您不必担心剧情看起来很糟;您的p值仍会考虑到这一点。

但是,更可能的原因是,您还忘记了t0中的ddof参数。默认值为scipy.stats.chisquare,这不是您所拥有的:在您的情况下为ddof=0,在我的上述情况下为len(rate) - 2
为了适合您(固定的len(rate) - 4t0),结果为x0。在所有参数均未设置的情况下,结果为0.999887(即再次为1)。


奖金:我将句点p = 0.902固定为365.25时输出:

t0

和绘制的拟合:

enter image description here