我正在使用Artificial Neural Networks
对时间序列温度预测进行研究,并且大多数参考文献在使用Min-Max Normalization technique
将它们输入神经网络之前对输入值进行归一化。训练和测试数据集都进行了标准化。输入值是特定日的温度,露点,降水,压力和风速值。
如果我在测试集中只有一个样本(例如,我只有今天的天气属性来预测明天的温度),我怎样才能将值标准化,因为我会有相同的最小值和最大值每个属性的值?
P.S。我已经通过电子邮件发送了我所用研究的作者,但没有人发过回复,所以我想我会在这里寻求帮助:)
答案 0 :(得分:2)
以相同方式对训练和测试集进行标准化,因此您计算训练集上的“边界”,并仅将其应用于测试集(您不应使用测试数据)计算这些边界,你应该假设在模型创建的那一刻你不知道测试数据。)
您似乎错过了机器学习的核心理念。您无法在一个样本上训练预测模型。根据样本数量,我们指的是您收集的观察集的大小,而不是模型所需的数据量(因此,当您根据今天预测的温度时,并不意味着您有一个样本,您需要从历史记录中获取大量样本,以便训练任何模型,特别是神经网络。
因此,规范化的问题在这里并不重要 - 因为你只需要为整个历史集或执行它,如果你知道每个属性可以确定的值的确切边界,你可以手动规范化它们实现(例如 - 你正在以摄氏度测量温度,所以它应该落入[-20,40]间隔,如果你生活在世界“更柔软”的部分,那么它应该是沉重的。)
答案 1 :(得分:1)
标准化样本,就像它在训练或测试数据集中一样。他们是你训练的范围,对吗?
通常,将有限/部分数据放入您可以处理/训练过程的上下文中,将是从中获取有意义或有效输出的唯一方法。
当然,你不应该完全局限于一个样本..因为你应该完全能够保留(和使用)前几天样本的历史。