Scipy的curve_fit没有给出合理的结果

时间:2014-03-22 17:25:04

标签: python numpy scipy curve-fitting curve

我有一个简单的x,y数据集,至少乍看之下。问题是scipy.optimize.curve_fit为其中一个参数提供了非常大的值,而且我不知道这是否在数学上是正确的,或者是否有错误我如何拟合数据。

下图显示了数据点和蓝色获得的最佳拟合。使用的曲线(func中的MWE)有四个参数a, b, c, d:{/ p>

  • a提供大致x值,曲线可达到它的半最大值。
  • b表示曲线稳定x值。此func值由d参数给出,即:func(b) = d
  • c与原点曲线的最大值有关:func(0) = c*constant + d
  • d是曲线稳定的地方(图中的黑线)。

b参数是我遇到问题的参数(请参阅问题末尾),它也是我 最感兴趣的参数分配合理的价值。

enter image description here

MWE显示正在拟合的函数和结果:

import numpy as np
from scipy.optimize import curve_fit
import matplotlib.pyplot as plt

# Function to be fitted.
def func(x, a, b, c, d):
    return c * (1 / np.sqrt(1 + (np.asarray(x) / a) ** 2) -
        1 / np.sqrt(1 + (b / a) ** 2)) ** 2 + d

# Define x,y data.    
x_list = [12.5, 37.5, 62.5, 87.5, 112.5, 137.5, 162.5, 187.5, 212.5, 237.5,
    262.5, 287.5, 312.5, 337.5, 362.5, 387.5, 412.5, 437.5, 462.5, 487.5,
    512.5]
y_list = [0.008, 0.0048, 0.0032, 0.00327, 0.0023, 0.00212, 0.00187,
    0.00086, 0.00070, 0.00100, 0.00056, 0.00076, 0.00052, 0.00077, 0.00067,
    0.00048, 0.00078, 0.00067, 0.00069, 0.00061, 0.00047]

# Initial guess for the 4 parameters.
guess = (50., 200., 80. / 10000., 6. / 10000.)

# Fit curve to x,y data.
f_prof, f_err = curve_fit(func, x_list, y_list, guess)

# Values for the a,b,c,d fitted parameters.
print f_prof

# Errors (standard deviations) for the fitted parameters.
print np.sqrt(f_err[0][0]), np.sqrt(f_err[1][1]), np.sqrt(f_err[2][2]),\
    np.sqrt(f_err[3][3])

# Generate plot.
plt.scatter(x_list, y_list)
plt.plot(x_list, func(x_list, f_prof[0], f_prof[1], f_prof[2], f_prof[3]))
plt.hlines(y=f_prof[3], xmin=0., xmax=max(x_list))
plt.show()

我得到的结果是:

# a, b, c, d
 52.74, 2.52e+09, 7.46e-03, 5.69e-04

# errors
11.52, 1.53e+16, 0.0028, 0.00042

b参数具有巨大的值,也是一个巨大的错误。通过查看图中绘制的数据,可以通过眼睛估计b的值(即:数据集稳定的x)应该在x=300。为什么我会为b及其错误获得如此大的值?

3 个答案:

答案 0 :(得分:2)

您可以使用惩罚值作为参数的范数,并使用fmin

from scipy.optimize import fmin

def func(x, a, b, c, d):
    return c * (1 / np.sqrt(1 + (x / a) ** 2) - 1 / np.sqrt(1 + (b / a) ** 2)) ** 2 + d

def errfn(params, xs, ys, lm, ord=1):
    '''
    lm: penalty maltiplier
    ord: order in norm calculation
    '''
    from numpy.linalg import norm
    a, b, c, d = params
    err = func(xs, a, b, c, d) - ys
    return norm(err) + lm * norm(params, ord)

params = fmin(errfn, guess, args=(xs, ys, 1e-6, 2))

以上我使用1e-6的小罚款,合适的结果是

[6.257e+01   3.956e+02   9.926e-03   7.550e-04]

体面的合适:

fit

编辑:使用惩罚函数和规范顺序,它非常适合

params = [  1.479e+01  -3.344e+00  -8.781e-03   8.347e-03]

fit2

答案 1 :(得分:2)

我不知道这是故意的还是错误的,但在我看来,'b'与'a'和'd'强烈相关,并且与自变量'x'没有“相互作用”。如果b / a足够大,你可以将1 / np.sqrt(1 +(b / a)** 2))** 2作为a / b,这样你的函数就变成了    c * function_of(x,a) - a / b + d

你的'a'和'x'值足够大,几乎变成了c * a / x - a / b + d。

正如behzad.nouri所指出的,与其他最小化器相比,curve_fit可能稍微不稳定,并且总是最小化最小二乘法。但它确实返回完整的协方差矩阵,包括变量之间的相关性(f_err的非对角线元素)。用这些!!

如果您确定'b'的值大约为300,或者有兴趣在fmin和levenberg-marquardt算法之间轻松切换,您可能会发现lmfit包(http://lmfit.github.io/lmfit-py/)很有用。它允许您在参数上设置界限,在拟合算法之间轻松切换,还可以对参数的置信区间进行更强力的探索。

答案 2 :(得分:1)

从快速查看,似乎大b将消除func()的第二个词:

b/a进入无穷大时,1 / np.sqrt(1 + (b / a) ** 2)) ** 2会变为零。

这告诉我,模型中不需要这部分功能,并且造成的伤害大于好处。

只需将func设置为:

c * (1 / np.sqrt(1 + (np.asarray(x) / a) ** 2) + d