LSTM来自密集层的初始状态

时间:2018-01-12 20:15:21

标签: python machine-learning keras

我在时间序列数据上使用lstm。我有关于时间序列的功能,这些功能不依赖于时间。想象一下该系列的公司股票以及非时间序列特征中的公司位置等内容。这不是用例,但它是相同的想法。对于此示例,我们只是预测时间序列中的下一个值。

一个简单的例子就是:

feature_input = Input(shape=(None, data.training_features.shape[1]))
dense_1 = Dense(4, activation='relu')(feature_input)
dense_2 = Dense(8, activation='relu')(dense_1)

series_input = Input(shape=(None, data.training_series.shape[1]))
lstm = LSTM(8)(series_input, initial_state=dense_2)
out = Dense(1, activation="sigmoid")(lstm)

model = Model(inputs=[feature_input,series_input], outputs=out)
model.compile(loss='mean_squared_error', optimizer='adam', metrics=["mape"])

但是,我只是不确定如何正确指定列表中的初始状态。我得到了

ValueError: An initial_state was passed that is not compatible with `cell.state_size`. Received `state_spec`=[<keras.engine.topology.InputSpec object at 0x11691d518>]; However `cell.state_size` is (8, 8)
我可以看到

是由3d批量维度引起的。我尝试使用Flatten,Permutation和Resize图层,但我不相信这是正确的。我错过了什么以及如何连接这些图层?

1 个答案:

答案 0 :(得分:9)

第一个问题是,LSTM(8)图层需要两个初始状态h_0c_0,每个状态为(None, 8)。这就是错误消息中“cell.state_size是(8,8)”的含义。

如果您只有一个初始状态dense_2,也许您可​​以切换到GRU(仅需要h_0)。或者,您可以将feature_input转换为两个初始状态。

第二个问题是h_0c_0的形状为(batch_size, 8),但您的dense_2形状为(batch_size, timesteps, 8)。在使用dense_2作为初始状态之前,您需要处理时间维度。

因此,您可以将输入形状更改为(data.training_features.shape[1],)或使用GlobalAveragePooling1D取平均时间步长。

一个工作的例子是:

feature_input = Input(shape=(5,))
dense_1_h = Dense(4, activation='relu')(feature_input)
dense_2_h = Dense(8, activation='relu')(dense_1_h)
dense_1_c = Dense(4, activation='relu')(feature_input)
dense_2_c = Dense(8, activation='relu')(dense_1_c)

series_input = Input(shape=(None, 5))
lstm = LSTM(8)(series_input, initial_state=[dense_2_h, dense_2_c])
out = Dense(1, activation="sigmoid")(lstm)
model = Model(inputs=[feature_input,series_input], outputs=out)
model.compile(loss='mean_squared_error', optimizer='adam', metrics=["mape"])