scipy.curve_fit与numpy.polyfit不同的协方差矩阵

时间:2018-08-23 07:58:41

标签: python numpy scipy curve-fitting

我正在使用Python 3.6进行数据拟合。最近,我遇到了以下问题,但由于缺乏经验,因此不确定如何处理。

如果我在同一组数据点上使用numpy.polyfit(x,y,1,cov = True)和scipy.curve_fit(lambda:x,a,b:a * x + b,x,y) ,我得到几乎相同的系数a和b。但是scipy.curve_fit协方差矩阵的值大约是numpy.polyfit值的一半。

由于我想使用协方差矩阵的对角线来估计系数的不确定性(u = numpy.sqrt(numpy.diag(cov))),所以我有三个问题:

  1. 哪个协方差矩阵是正确的(我应该使用哪个)?
  2. 为什么有区别?
  3. 需要什么使它们相等?

谢谢!

编辑:

import numpy as np
import scipy.optimize as sc

data = np.array([[1,2,3,4,5,6,7],[1.1,1.9,3.2,4.3,4.8,6.0,7.3]]).T

x=data[:,0]
y=data[:,1]

A=np.polyfit(x,y,1, cov=True)
print('Polyfit:', np.diag(A[1]))

B=sc.curve_fit(lambda x,a,b: a*x+b, x, y)
print('Curve_Fit:', np.diag(B[1]))

如果我使用statsmodels.api,则结果与curve_fit的结果相对应。

2 个答案:

答案 0 :(得分:2)

我想这与this

有关
lftp: user: Name or service not known

在这种情况下,593 # Some literature ignores the extra -2.0 factor in the denominator, but 594 # it is included here because the covariance of Multivariate Student-T 595 # (which is implied by a Bayesian uncertainty analysis) includes it. 596 # Plus, it gives a slightly more conservative estimate of uncertainty. 597 if len(x) <= order + 2: 598 raise ValueError("the number of data points must exceed order + 2 " 599 "for Bayesian estimate the covariance matrix") 600 fac = resids / (len(x) - order - 2.0) 601 if y.ndim == 1: 602 return c, Vbase * fac 603 else: 604 return c, Vbase[:,:, NX.newaxis] * fac 是4,而len(x) - order是2,这可以解释为什么您的值相差2倍。

这解释了问题2。问题3的答案可能是“获取更多数据。”,对于较大的(len(x) - order - 2.0),差异可能可以忽略不计。

哪种公式是正确的(问题1)可能是Cross Validated的问题,但我认为它是len(x),因为它明确地旨在计算您陈述的不确定性。从documentation

  

pcov:二维数组

     

popt的估计协方差。对角线提供参数估计的方差。要使用参数计算一个标准偏差,请使用perr = np.sqrt(np.diag(pcov))。

尽管上面curve_fit的代码中的注释表明,其意图更多地用于Student-T分析。

答案 1 :(得分:1)

这两种方法以不同的方式计算协方差。我不确定polyfit使用的方法,但是curve_fit通过反转J.T.dot(J)估计协方差矩阵,其中J是模型的雅可比。通过查看polyfit的代码,似乎它们将lhs.T.dot(lhs)反转,其中lhs被定义为范德蒙德矩阵,尽管我不得不承认我不知道第二种方法的数学背景

现在,关于您的问题是正确的,polyfit的代码具有以下注释:

# Some literature ignores the extra -2.0 factor in the denominator, but
#  it is included here because the covariance of Multivariate Student-T
#  (which is implied by a Bayesian uncertainty analysis) includes it.
#  Plus, it gives a slightly more conservative estimate of uncertainty.

基于此,以及您的观察,似乎polyfit总是提供比curve_fit更大的估计。这是有道理的,因为J.T.dot(J)是协方差矩阵的一阶近似值。因此,如有疑问,高估错误总是更好。

但是,如果您知道数据中的测量误差,建议您也提供这些误差,并用curve_fit调用absolute_sigma=True。从我自己的tests来看,这样做确实符合一个人的预期分析结果,所以我很想知道当提供测量误差时,两者中哪个表现更好。