标准化X_train和Y_train

时间:2020-10-26 14:32:45

标签: machine-learning standardization

我是该领域的初学者,目前正在研究基于Facebook Ads的数据集。

目标变量是“支出金额”,介于10到200之间,特征是“频率”(介于0.1到3.0之间)和“展示次数”(1000到30000)

训练模型(线性回归)后,我的得分是 0.84 ,但 MSE是490 ,我认为此值是因为功能具有具有以下情况的行:(频率:1.432,展示次数:25412)

我将数据分为训练数据和测试数据后应用了标准化

Without Standardization

**为了解决这个问题,我认为应用标准化消除了我应用fit_transform(X_train)和transform(X_test)值的高方差

得分相同,也与MSE相同。

After Standardization

我的疑惑很白痴,但是我像ML上的新手一样在这个领域工作

1):我注意到社区没有对目标变量(Y)应用标准化?

2)我在这里做错什么了吗?

谢谢你们!

1 个答案:

答案 0 :(得分:0)

标准化通常应用于自变量,因此均值大约为零,标准std为1。即数据被转换为标准正态分布。这样做的原因是它以0到1归一化了自变量形式的比例。例如,如果variable1在os 100到100的范围内,而variable2在0到1的范围内,并且沿着x一起绘制它们轴,您会在图表中看到vaibale2接近零,任何变量2的任何更改都不会影响目标值。

目标不应该标准化,因为如果模型可以预测该怎么办。 y = f(x),y​​是目标值。