Python scikit学习线性模型参数标准错误

时间:2014-03-13 14:20:44

标签: python scikit-learn linear-regression variance

我正在使用sklearn,特别是linear_model模块。在拟合简单的线性之后

import pandas as pd
import numpy as np
from sklearn import linear_model
randn = np.random.randn

X = pd.DataFrame(randn(10,3), columns=['X1','X2','X3'])
y = pd.DataFrame(randn(10,1), columns=['Y'])        

model = linear_model.LinearRegression()
model.fit(X=X, y=y)

我看到我如何通过coef_和intercept_访问系数和截距,预测也很简单。我想访问这个简单模型的参数的方差 - 协方差矩阵,以及这些参数的标准误差。我熟悉R和vcov()函数,似乎scipy.optimize有一些功能(Getting standard errors on fitted parameters using the optimize.leastsq method in python) - sklearn是否有任何访问这些统计信息的功能?

感谢您的任何帮助。

-Ryan

2 个答案:

答案 0 :(得分:4)

不,scikit-learn没有建立误差估计进行推理。但是Statsmodels确实如此。

import statsmodels.api as sm
ols = sm.OLS(y, X)
ols_result = ols.fit()
# Now you have at your disposition several error estimates, e.g.
ols_result.HC0_se
# and covariance estimates
ols_result.cov_HC0

请参阅docs

答案 1 :(得分:2)

tl; dr

不适用于scikit-learn,但是您可以使用一些线性代数来手动计算。我在下面的示例中这样做。

这也是一个Jupyter笔记本,代码如下:https://gist.github.com/grisaitis/cf481034bb413a14d3ea851dab201d31

什么和为什么

估计的标准误只是估计方差的平方根。您的估算差异是多少?如果您认为模型存在高斯误差,则为:

Var(beta_hat) = inverse(X.T @ X) * sigma_squared_hat

,则beta_hat[i]的标准错误为Var(beta_hat)[i, i] ** 0.5

您只需要计算sigma_squared_hat。这是对模型的高斯误差的估计。这不是先验的,但可以通过残差的样本方差来估计。

此外,您需要在数据矩阵中添加一个拦截项。 Scikit-learn通过LinearRegression类自动完成此操作。因此,要自己计算,需要将其添加到X矩阵或数据帧中。

如何

从您的代码开始,

显示您的scikit学习结果

print(model.intercept_)
print(model.coef_)
[-0.28671532]
[[ 0.17501115 -0.6928708   0.22336584]]

用线性代数重现它

N = len(X)
p = len(X.columns) + 1  # plus one because LinearRegression adds an intercept term

X_with_intercept = np.empty(shape=(N, p), dtype=np.float)
X_with_intercept[:, 0] = 1
X_with_intercept[:, 1:p] = X.values

beta_hat = np.linalg.inv(X_with_intercept.T @ X_with_intercept) @ X_with_intercept.T @ y.values
print(beta_hat)
[[-0.28671532]
 [ 0.17501115]
 [-0.6928708 ]
 [ 0.22336584]]

计算参数估计值的标准误

y_hat = model.predict(X)
residuals = y.values - y_hat
residual_sum_of_squares = residuals.T @ residuals
sigma_squared_hat = residual_sum_of_squares[0, 0] / (N - p)
var_beta_hat = np.linalg.inv(X_with_intercept.T @ X_with_intercept) * sigma_squared_hat
for p_ in range(p):
    standard_error = var_beta_hat[p_, p_] ** 0.5
    print(f"SE(beta_hat[{p_}]): {standard_error}")
SE(beta_hat[0]): 0.2468580488280805
SE(beta_hat[1]): 0.2965501221823944
SE(beta_hat[2]): 0.3518847753610169
SE(beta_hat[3]): 0.3250760291745124

statsmodels确认

import statsmodels.api as sm
ols = sm.OLS(y.values, X_with_intercept)
ols_result = ols.fit()
ols_result.summary()
...
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.2867      0.247     -1.161      0.290      -0.891       0.317
x1             0.1750      0.297      0.590      0.577      -0.551       0.901
x2            -0.6929      0.352     -1.969      0.096      -1.554       0.168
x3             0.2234      0.325      0.687      0.518      -0.572       1.019
==============================================================================

是的,完成了!