使用scikit的StandardScaler和MinMaxScaler标准化时间序列数据

时间:2019-05-23 18:03:40

标签: python scikit-learn time-series recurrent-neural-network standardized

有关在时序数据上使用StandardScaler的正确方法的问题。我有一个时间序列数据,希望将其放入形状的RNN(样本,时间步长,特征)中,我将数据分成比例约为70/20/10的训练/验证/测试集分别是,scikit的缩放器只接受2D张量来拟合数据,现在的问题是如何将3D训练数据正确地放入缩放器中,然后再转换验证和测试集?

此外,还有另外一件事值得一提。我的数据的单个样本的形状为(100,6)--->(时间步长,特征),但由于该事实,我从该单个样本中对多个形状为(40,6)的样本进行子采样只需40个步骤即可解决我的问题,此外,它还允许我从单个样本生成更多数据,现在最好对每个单个子样本(40、6)进行缩放并将其馈送到我的模型中,或者只是对模型进行缩放整个样本(100,6),然后进行子采样?

根据我的理解,对整个样本进行缩放的问题将在稍后模型将面对新数据时出现,新收集的数据将具有形状(40,6),因为这正是模型期望的形状,也就是预测我要预测的内容所需的时间步长,但是由于在训练过程中,数据是使用较大的样本量(100、6)进行缩放的,因此可能会导致某些预测错误。显然,如果我弄错了,请纠正我,这肯定会有所帮助。

欢呼

0 个答案:

没有答案