让我们说我有3个传感器(Sa,Sb和Sc),它们仅测量一月份(朱利安第1至31天)的每日空气温度。并假设我拥有3年的完整数据集,并且按天计数(1到365:第一年,366到730:第二年...)。 所以我的数据集就像:
-------- ------ -------
| Sensor | Day | Value |
| Sa | 01 | 7.2 |
| Sa | 02 | 7.0 |
...
| Sa | 31 | 5.9 |
| Sa | 366 | 7.4 |
| Sa | 367 | 7.5 |
...
| Sa | 1095 | 5.5 |
| Sb | 01 | 6.9 |
| Sb | 02 | 7.1 |
...
| Sb | 1095 | 5.6 |
| Sc | 01 | 6.8 |
...
| Sc | 1095 | 4.1 |
-------- ------ -------
我想预测在给定t-4到t-1的时间t的值(所以x大小3,y大小1)。 如我们所见,我们有9个连续的时间序列(Sa从1天到31天,Sa从366天到730天……Sb从1天到31天)。 在这种情况下,我应该如何考虑批次问题来组织训练集?
到目前为止,我考虑到“有效”序列将数据分为x / y 2D矩阵,这是:
features_set labels
| x1 | x2 | x3 | | y |
| 7.2 | 7.0 | 6.9 | | 6.7 | (sample 1: for Sa days 1 to 3 -> 4)
| 7.0 | 6.9 | 6.7 | | 6.8 | (sample 2: for Sa days 2 to 4 -> 5)
...
| 5.7 | 5.8 | 5.8 | | 5.9 | (sample 31: for Sa days 28 to 30 -> 31)
| 7.4 | 7.5 | 7.4 | | 7.3 | (sample 32: for Sa days 366 to 368 -> 369)
...
| 7.0 | 6.9 | 6.7 | | 6.8 | (sample 251: for Sc days 1092 to 1094 -> 1095)
请注意,样本1到31是Sa的第一个月的经典“移位序列”,但是样本31和32之间的时间序列存在“中断”,因为样本31是第一年的一部分。测量,而样品32是第二年测量的一部分。
如果我以32的批次大小(N)训练NN,则获得的最小损失函数为0.5。当我将批次大小减小到8时,我将损失0.1到0.05。当批处理大小为1时,我得到0.04(这似乎是可以获取的最小值)。
model = Sequential()
model.add(LSTM(4, input_shape=(features_set.shape[1], 1)))
model.add(Dense(1))
model.compile(loss='mean_squared_error', optimizer='adam')
model.fit(features_set, labels, epochs=100, batch_size=N)
(其中features_set是251x3x1的浮点矩阵,标签是251x1x1的浮点矩阵)
那么是否选择较大的批处理大小会导致将31和32这样的样本一起批处理?这是导致训练结果更差的原因吗? 除了使用批处理大小1以外,如何处理这种情况?
答案 0 :(得分:0)
首先,我将数据标准化为0到1。
看看学习率越低,时代越长是否有帮助。
您有批次,每个批次的大小为[3,3],如3个传感器和3个时间步长。 您正在针对每批输出[1,1]
的输出进行训练我的猜测是,当您包括更多批次时,误差会更大,因为该模型正在考虑32个样本而不是1个样本中的误差。我会保持批次大小不变。
如果有帮助,此模型似乎与此类似:https://towardsdatascience.com/predicting-stock-price-with-lstm-13af86a74944