验证数据上的标准化/标准化参数

时间:2018-12-19 10:36:09

标签: machine-learning normalization data-processing

只是一个愚蠢的问题。
我知道最好的做法是标准化训练集及其参数(最小,最大值进行归一化,均值std用于std),然后对验证集进行归一化。
但是我想知道:如果在验证集中拥有不同的最小/最大值来构成,因此最终得到的值不再是(0,1)区间的值了?
在对验证数据进行预测时,这是否会影响神经网络?这仅仅是对有效利用学习的数据的关注(数据具有适当的缩放比例)吗?

最后一个愚蠢的问题:当我们在看不见的数据上测试模型时,应该再次使用训练归一化参数对这些数据进行归一化,对吗?由于这些参数实际上是训练模型的一部分。

1 个答案:

答案 0 :(得分:0)

进行扩展时,通常会知道数据范围:

  • 对于图像,您可以从0-255到0-1,这很好,您事先知道了范围
  • 对于其他功能,要缩放的不是均匀分布,而是高斯分布,在这种情况下,您一定不要受到输出[0,1]间隔(或[-1,1] )。

因此,通常,如果您知道所需的输出类型(概率或图像),那么您也知道输入可以拥有的真正完整范围。

当您不知道输入范围时,通常不希望在输出端使用S型信号,因为这会对网络造成更大的限制。

是的,您需要使用与训练数据相同的预处理管道,即训练后的归一化参数。