作为我的任务的一部分,我正在处理几个数据集,并使用线性回归找到他们的训练错误。我想知道标准化是否对训练错误有任何影响?我的相关性和RMSE在标准化之前和之后对于数据集来说是相等的。
谢谢,
答案 0 :(得分:5)
很容易证明,对于线性回归,如果只是通过缩放(a
转换输入数据并不重要;同样适用于翻译,这意味着形式X' = aX + b
的任何转换都是如此对于真实a != 0,b
具有相同的属性)。
X' = aX
w = (X^TX)X^Ty
w' = (aX^TaX)^-1 aX^Ty
w' = 1/a w
因此
X^Tw = 1/a aX^T w = aX^T 1/a w = X'^Tw'^T
因此,计算误差的投影在缩放之前和之后完全相同,因此任何类型的损失函数(独立于x
)都会产生完全相同的结果。
但是,如果缩放输出变量,则错误将发生变化。此外,如果您以更复杂的方式对数据集进行标准化,那么只需乘以一个数字(例如 - 通过白化或几乎任何旋转),您的结果将取决于预处理。如果使用正则化线性回归(岭回归),那么甚至可以通过恒定事项来缩放输入数据(因为它改变了正则化参数的"意义")。