应用错误收集

标准化X_train和Y_train

时间：2020-10-26 14:32:45

标签： machine-learning standardization

我是该领域的初学者，目前正在研究基于Facebook Ads的数据集。

目标变量是“支出金额”，介于10到200之间，特征是“频率”（介于0.1到3.0之间）和“展示次数”（1000到30000）

训练模型（线性回归）后，我的得分是 0.84 ，但 MSE是490 ，我认为此值是因为功能具有具有以下情况的行：（频率：1.432，展示次数：25412）

我将数据分为训练数据和测试数据后应用了标准化

Without Standardization

**为了解决这个问题，我认为应用标准化消除了我应用fit_transform（X_train）和transform（X_test）值的高方差

但得分与相同，也与MSE相同。

After Standardization

我的疑惑很白痴，但是我像ML上的新手一样在这个领域工作

1）：我注意到社区没有对目标变量（Y）应用标准化？

2）我在这里做错什么了吗？

谢谢你们！

1 个答案:

答案 0 :(得分：0)

标准化通常应用于自变量，因此均值大约为零，标准std为1。即数据被转换为标准正态分布。这样做的原因是它以0到1归一化了自变量形式的比例。例如，如果variable1在os 100到100的范围内，而variable2在0到1的范围内，并且沿着x一起绘制它们轴，您会在图表中看到vaibale2接近零，任何变量2的任何更改都不会影响目标值。

目标不应该标准化，因为如果模型可以预测该怎么办。 y = f（x），y是目标值。