在不使用Scikit-Learn对归一化数据执行回归后如何检索原始系数?

时间:2019-04-22 14:52:56

标签: python machine-learning linear-regression

我正在使用pandas从文件中读取数据,如下所示:

data.head()

   ldr1  ldr2  servo
0   971   956     -2
1   691   825   -105
2   841   963    -26
3   970   731     44
4   755   939    -69

我继续对该数据进行归一化以执行梯度下降:

my_data = (my_data - my_data.mean())/my_data.std()
my_data.head()

       ldr1      ldr2     servo
0  1.419949  1.289668  0.366482
1 -0.242834  0.591311 -1.580420
2  0.647943  1.326984 -0.087165
3  1.414011  0.090200  1.235972
4  0.137231  1.199041 -0.899949

我执行多元回归,并在归一化数据上得到拟合参数:

Thetas:  [[ 0.31973117  0.45401309 -0.12941108]]

我想使用归一化thetas 在原始数据而非归一化数据上绘制最合适的平面

我用scipy.optimize.curve_fit进行了多元线性回归并得出了最佳拟合参数。我知道原始thetas应该接近以下值:

[   0.26654135   -0.15218007 -107.79915373]

如何使用Scikit-Learn获取原始数据集的原始theta以便进行绘图,而无需使用em

任何建议将不胜感激。


按照以下答案:

m
ldr1     731.891429
ldr2     714.080000
servo    -21.388571
dtype: float64
s
ldr1     168.392347
ldr2     187.583221
servo     52.904576
dtype: float64

然后我继续:

original_thetas = np.dot(theta, s) + m

产生:

original_thetas
ldr1     862.420572
ldr2     844.609144
servo    109.140572
dtype: float64

我不确定我是否正确执行了计算,或者所介绍的方法是否不适用于系数本身。

1 个答案:

答案 0 :(得分:5)

我相信您只需要存储均值和标准差

m = data.mean()
s = data.std()

然后逆变换

theta * s + m