机器学习预测和规范化

时间:2018-07-24 19:01:12

标签: machine-learning normalization prediction

在训练模型之前,我正在使用z分数对数据进行归一化。当我每天进行预测时,我倾向于每天观察的很少,也许只有十几个。我的问题是,我可以单独对测试数据进行归一化,还是应该将其附加到整个训练集中以对其进行归一化?

我要问的原因是,归一化是基于均值和std_dev的,如果我的数据集仅包含一些观测值,则显然看起来可能会大不相同。

2 个答案:

答案 0 :(得分:1)

使用经过非常不同数据分布训练的模型对测试集进行预测当然不是一个好主意。我将使用您训练数据的均值和标准差对测试集进行标准化。

答案 1 :(得分:1)

您需要将所有数据都放在同一单位中。除其他外,这意味着您需要对所有输入使用相同的规范化转换。您不需要在训练本身中包含新数据,但是,请保留规范化的参数({{1}的mb }),并将其应用于测试数据。