我正在关注this ipython笔记本。它现在有点陈旧,一些API调用已经改变。但是,数学应该仍然有效!
我的问题:我想知道为什么sklearn LinearRegression
会出现虚假结果,而statsmodel OLS
与我的导游有相同的结果。
sklearn LinearRegression
系数是
-3.05335819e + 09,3.05335819e + 09 ,9.31299461e-02,-3.29341722e + 00
虽然statsmodel OLS
结果如下:
-1.17513710e-05,-1.17509020e-05 ,9.23027375e-02,-3.27115207e + 00
不幸的是,要完全遵循该示例,必须从R。
导出“Boston”数据集我创建了一个gist代码:
import pandas as pd
import numpy as np
import scipy as sp
import statsmodels.api as sm
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
%matplotlib inline
# Data from R ISLR package - write.csv(Boston, "Boston.csv", col.names = FALSE)
boston_df = pd.read_csv("../../r/Boston.csv")
# fitting medv ~ lstat + I(lstat^2)
boston_df["lstat^2"] = boston_df["lstat"] ** 2
# fitting medv ~ poly(lstat,4). We already have lstat^2 and lstat from previous
boston_df["lstat^4"] = np.power(boston_df["lstat"], 4)
boston_df["lstat^3"] = np.power(boston_df["lstat"], 4)
X = boston_df[["lstat^4", "lstat^3", "lstat^2", "lstat"]]
y = boston_df["medv"]
reg7 = LinearRegression()
reg7.fit(X, y)
(reg7.intercept_, reg7.coef_)
导致:
array([ -3.05335819e+09, 3.05335819e+09, 9.31299461e-02, -3.29341722e+00])
如果我使用statsmodel OLS计算线性回归,但是:
# X = boston_df[["lstat^4", "lstat^3", "lstat^2", "lstat"]]
X = sm.add_constant(X)
# X = boston_df[[1., "lstat^4", "lstat^3", "lstat^2", "lstat"]]
ols = sm.OLS(y,X).fit()
# ols.summary()
ols.params.values[1:]
我得到以下结果:
array([ -1.17513710e-05, -1.17509020e-05, 9.23027375e-02,
-3.27115207e+00])
这是预期的。
这破坏了我对sklearn的信心。我在OSX上运行它,在 ipython 3.0.0,statsmodels(0.6.1),scikit-learn(0.15.2),numpy(1.9.2)
由于
答案 0 :(得分:1)
boston_df["lstat^4"] = np.power(boston_df["lstat"], 4)
boston_df["lstat^3"] = np.power(boston_df["lstat"], 4)
这里,为什么两者都是4阶多项式?这是拼写错误还是意图?因为从结果来看,3阶和4阶项的系数具有完全相同的幅度,但只是符号不同。这通常是由于多重共线性问题导致这两个术语几乎完全正相关。在这种情况下,sm.OLS
和sklearn.linear_model.LinearRegression()
都不正确。它需要标准的正规化处理。