我正在尝试在具有一个隐藏层的数据集上运行MLP回归器。我正在对数据进行标准化,但是我想弄清楚,是否要在训练和测试集中分割数据集之后或之前进行标准化是否重要。我想知道如果我在数据分割之前进行标准化,那么我的预测值是否会有任何差异。
答案 0 :(得分:0)
在拆分之前,您绝对应该这样做。
想象一下,以[1,2,3,4,5,6,7,8,9,10]作为输入,它们被分成[1,2,3,4,5,7,9,10 ]用于火车,[6,8]用于测试。
立即清楚的是,两个样本的最小-最大范围以及均值和标准差完全不同,因此,通过应用标准化的“后分割”,您可以完全扰乱第一和第二个值之间的关系。第二组。
答案 1 :(得分:0)
是,不是。如果训练和测试集的均值和方差不同,则标准化会导致不同的结果。
话虽这么说,一个好的训练和测试集应该足够相似,以使数据点以相似的方式分布,并且拆分后的标准化应该给出相同的结果。