我试图使用curvefit将我的数据拟合为两个对数。
from scipy.optimize import curve_fit
def func_2log(x, a, b, c, d, e):
return a*np.log(x + 1 + b) +c*np.log(x + 1 + d) + e
p, cov = curve_fit(func_2log, x, y, p0 = initial_guess, sigma = yerr, maxfev = 100000)
然而,当我打印协方差矩阵时,我得到:
[[-2.23883493e + 06 -3.92893042e + 09 -1.87846128e + 01 -4.27371608e + 02 2.46442543e + 07]
[-3.92893042e + 09 -6.89487710e + 12 -3.29629278e + 04 -7.49919180e + 05 4.32481902e + 10]
[-1.87846014e + 01 -3.29629077e + 04 -1.53314974e-04 -3.43241587e-03 2.06772574e + 02]
[-4.27371198e + 02 -7.49918462e + 05 -3.43241462e-03 -7.58284163e-02 4.70429813e + 03]
[2.46442543e + 07 4.32481902e + 10 2.06772700e + 02 4.70430264e + 03 -2.71274697e + 08]]
这个矩阵在数学上是如何可能的?参数如何与自身负相关?
编辑:我不想自己包含数据,因为x和y有大约90,000个元素。 x从0到87244,步长为1,y的范围为2到7。
感谢您提前提供任何帮助。
答案 0 :(得分:2)
协方差curve_fit
内的计算包含:
cov_x = inv(dot(transpose(R), R))
其中R ^ T R是由优化算法产生的粗糙度的近似值。看起来肯定,对吗?
结果确实在精确算术中是肯定的。然而, 在你的情况下可能发生的是,近似值具有较高的条件数,因此在计算反向结果时的舍入误差会导致正定性的丢失。实际上,上面给出的矩阵的条件数是~10 ^ 21。
如果是这样,在实践中这可能意味着对于参数的某些线性组合,估计的方差是无限的,这阻止了对任何协方差的可靠估计。
(例如,如果a = 0
获得最佳拟合,则b
变得不明确,可能会破坏协方差估计。)