线性回归中标准化的影响:机器学习

时间:2015-11-05 14:00:10

标签: machine-learning normalization rapidminer

作为我的任务的一部分,我正在处理几个数据集,并使用线性回归找到他们的训练错误。我想知道标准化是否对训练错误有任何影响?我的相关性和RMSE在标准化之前和之后对于数据集来说是相等的。

谢谢,

1 个答案:

答案 0 :(得分:5)

很容易证明,对于线性回归,如果只是通过缩放(a转换输入数据并不重要;同样适用于翻译,这意味着形式X' = aX + b的任何转换都是如此对于真实a != 0,b具有相同的属性)。

X' = aX

w = (X^TX)X^Ty
w' = (aX^TaX)^-1 aX^Ty
w' = 1/a w

因此

X^Tw = 1/a aX^T w = aX^T 1/a w = X'^Tw'^T 

因此,计算误差的投影在缩放之前和之后完全相同,因此任何类型的损失函数(独立于x)都会产生完全相同的结果。

但是,如果缩放输出变量,则错误将发生变化。此外,如果您以更复杂的方式对数据集进行标准化,那么只需乘以一个数字(例如 - 通过白化或几乎任何旋转),您的结果将取决于预处理。如果使用正则化线性回归(岭回归),那么甚至可以通过恒定事项来缩放输入数据(因为它改变了正则化参数的"意义")。