我有一个简单的x,y
数据集,至少乍看之下。问题是scipy.optimize.curve_fit为其中一个参数提供了非常大的值,而且我不知道这是否在数学上是正确的,或者是否有错误我如何拟合数据。
下图显示了数据点和蓝色获得的最佳拟合。使用的曲线(func
中的MWE
)有四个参数a, b, c, d
:{/ p>
a
提供大致x
值,曲线可达到它的半最大值。b
表示曲线稳定的x
值。此func
值由d
参数给出,即:func(b) = d
c
与原点曲线的最大值有关:func(0) = c*constant + d
d
是曲线稳定的地方(图中的黑线)。 b
参数是我遇到问题的参数(请参阅问题末尾),它也是我 最感兴趣的参数分配合理的价值。
MWE
显示正在拟合的函数和结果:
import numpy as np
from scipy.optimize import curve_fit
import matplotlib.pyplot as plt
# Function to be fitted.
def func(x, a, b, c, d):
return c * (1 / np.sqrt(1 + (np.asarray(x) / a) ** 2) -
1 / np.sqrt(1 + (b / a) ** 2)) ** 2 + d
# Define x,y data.
x_list = [12.5, 37.5, 62.5, 87.5, 112.5, 137.5, 162.5, 187.5, 212.5, 237.5,
262.5, 287.5, 312.5, 337.5, 362.5, 387.5, 412.5, 437.5, 462.5, 487.5,
512.5]
y_list = [0.008, 0.0048, 0.0032, 0.00327, 0.0023, 0.00212, 0.00187,
0.00086, 0.00070, 0.00100, 0.00056, 0.00076, 0.00052, 0.00077, 0.00067,
0.00048, 0.00078, 0.00067, 0.00069, 0.00061, 0.00047]
# Initial guess for the 4 parameters.
guess = (50., 200., 80. / 10000., 6. / 10000.)
# Fit curve to x,y data.
f_prof, f_err = curve_fit(func, x_list, y_list, guess)
# Values for the a,b,c,d fitted parameters.
print f_prof
# Errors (standard deviations) for the fitted parameters.
print np.sqrt(f_err[0][0]), np.sqrt(f_err[1][1]), np.sqrt(f_err[2][2]),\
np.sqrt(f_err[3][3])
# Generate plot.
plt.scatter(x_list, y_list)
plt.plot(x_list, func(x_list, f_prof[0], f_prof[1], f_prof[2], f_prof[3]))
plt.hlines(y=f_prof[3], xmin=0., xmax=max(x_list))
plt.show()
我得到的结果是:
# a, b, c, d
52.74, 2.52e+09, 7.46e-03, 5.69e-04
# errors
11.52, 1.53e+16, 0.0028, 0.00042
b
参数具有巨大的值,也是一个巨大的错误。通过查看图中绘制的数据,可以通过眼睛估计b
的值(即:数据集稳定的x
值)应该在x=300
。为什么我会为b
及其错误获得如此大的值?
答案 0 :(得分:2)
您可以使用惩罚值作为参数的范数,并使用fmin
:
from scipy.optimize import fmin
def func(x, a, b, c, d):
return c * (1 / np.sqrt(1 + (x / a) ** 2) - 1 / np.sqrt(1 + (b / a) ** 2)) ** 2 + d
def errfn(params, xs, ys, lm, ord=1):
'''
lm: penalty maltiplier
ord: order in norm calculation
'''
from numpy.linalg import norm
a, b, c, d = params
err = func(xs, a, b, c, d) - ys
return norm(err) + lm * norm(params, ord)
params = fmin(errfn, guess, args=(xs, ys, 1e-6, 2))
以上我使用1e-6
的小罚款,合适的结果是
[6.257e+01 3.956e+02 9.926e-03 7.550e-04]
体面的合适:
编辑:使用惩罚函数和规范顺序,它非常适合
params = [ 1.479e+01 -3.344e+00 -8.781e-03 8.347e-03]
答案 1 :(得分:2)
我不知道这是故意的还是错误的,但在我看来,'b'与'a'和'd'强烈相关,并且与自变量'x'没有“相互作用”。如果b / a足够大,你可以将1 / np.sqrt(1 +(b / a)** 2))** 2作为a / b,这样你的函数就变成了 c * function_of(x,a) - a / b + d
你的'a'和'x'值足够大,几乎变成了c * a / x - a / b + d。
正如behzad.nouri所指出的,与其他最小化器相比,curve_fit可能稍微不稳定,并且总是最小化最小二乘法。但它确实返回完整的协方差矩阵,包括变量之间的相关性(f_err的非对角线元素)。用这些!!
如果您确定'b'的值大约为300,或者有兴趣在fmin和levenberg-marquardt算法之间轻松切换,您可能会发现lmfit包(http://lmfit.github.io/lmfit-py/)很有用。它允许您在参数上设置界限,在拟合算法之间轻松切换,还可以对参数的置信区间进行更强力的探索。
答案 2 :(得分:1)
从快速查看,似乎大b
将消除func()
的第二个词:
当b/a
进入无穷大时,1 / np.sqrt(1 + (b / a) ** 2)) ** 2
会变为零。
这告诉我,模型中不需要这部分功能,并且造成的伤害大于好处。
只需将func
设置为:
c * (1 / np.sqrt(1 + (np.asarray(x) / a) ** 2) + d