一起或单独标准化/分解培训/测试?

时间:2015-05-12 08:03:49

标签: machine-learning standards

X数据的两个常见ML预处理步骤是标准化(例如,缩放到单位方差)和分解(将特征映射到新空间,AIUI)。

在ML管道中实施这些步骤的两种可能方式包括培训/测试/验证集:

i)对整个训练/测试/验证X数据集进行标准化/分解,然后分解为训练/测试集,并使用最低误差模型对验证集进行预测。

ii)分成训练/测试集,然后分别标准化/分解训练/测试集,并使用最低错误模型(在标准化/分解之后)对验证集进行预测

这些方法中的一种比另一种更优选,为什么?

1 个答案:

答案 0 :(得分:1)

我认为第三种选择是有效的:

分成测试/训练集,计算训练集上标准化/分解的参数(例如标准化训练集的均值和方差),并在测试集上应用相同的参数。

对于标准化,这可能意味着测试集没有零均值/单位方差。

查看转换训练集的测试集通常被认为是不好的做法,除了转换学习的特殊情况,您提前给出了测试集的输入。

您的第二个选项是危险的,因为测试集可能具有严重影响标准化参数的异常值。因此,您可以在训练集上估计一组转换参数。