线性回归中的归一化-全部与仅1个变量

时间:2018-07-12 10:46:13

标签: statistics regression linear-regression normalization

我的线性回归中有三个独立的数字变量。他们都有不同的规模。我的教授现在建议对其中之一使用z得分归一化(情感强度,下表中的变量3)以使其具有可比性。我不应该对所有这些进行标准化以使其真正具有可比性吗?

变量为:
1)项目描述长度(字数)-范围从10到1000个字
2)描述的情绪得分--1至1(从负到正)
3)描述的情感幅度-范围从0到无穷大

我预测的因变量是获得项目资金所需的天数。

此外,我想知道如何解释归一化变量的线性回归系数?使用其他模型(非线性模型,例如随机森林)时,这有区别吗?

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

将所有预测变量设置为x并将响应设置为y,然后在LinearRegression对象中设置normalize = True,如下所示。

from sklearn.linear_model import LinearRegression
import pandas as pd

regr = LinearRegression(normalize=True)  
regr.fit(x, y)
intercept = round(regr.intercept_, 2)
cols = x.columns.tolist()
coefficients = dict(zip(cols, [round(i, 4) for i in regr.coef_]))