在有和没有最终密集层的情况下训练多对多状态LSTM

时间:2019-09-25 16:53:04

标签: keras deep-learning lstm lstm-stateful

我正在尝试在Keras中训练包含LSTM的递归模型以进行回归。 我想在线使用该模型,据我了解,我需要训练一个有状态的LSTM。 由于模型必须输出一系列值,因此我希望它可以计算每个预期输出矢量的损耗。 但是,我担心我的代码不能以这种方式工作,如果有人能帮助我了解我做得对还是有更好的方法,我将不胜感激。

模型的输入是128维向量的序列。训练集中的每个序列都有不同的长度。 每次,模型应输出3个元素的向量。

我正在尝试训练和比较两个模型: A)具有128个输入和3个输出的简单LSTM; B)具有128个输入和100个输出的简单LSTM +一个具有3个输出的密集层;

对于模型A),我编写了以下代码:

# Model
model = Sequential()
model.add(LSTM(3, batch_input_shape=(1, None, 128),  return_sequences=True, activation = "linear", stateful = True))`
model.compile(loss='mean_squared_error', optimizer=Adam())

# Training
for i in range(n_epoch):
    for j in np.random.permutation(n_sequences):
        X = data[j] # j-th sequences
        X = X[np.newaxis, ...] # X has size 1 x NTimes x 128

        Y = dataY[j] # Y has size NTimes x 3

        history = model.fit(X, Y, epochs=1, batch_size=1, verbose=0, shuffle=False)
        model.reset_states()

使用此代码,模型A)似乎训练得很好,因为输出序列接近训练集上的地面真相序列。 但是,我想知道是否真的通过考虑所有NTimes输出向量来计算损耗。

对于模型B),由于层致密,我找不到任何方法来获取整个输出序列。因此,我写道:

# Model
model = Sequential()
model.add(LSTM(100, batch_input_shape=(1, None, 128), , stateful = True))
model.add(Dense(3,   activation="linear"))
model.compile(loss='mean_squared_error', optimizer=Adam())

# Training
for i in range(n_epoch):
    for j in np.random.permutation(n_sequences):
        X = data[j]  #j-th sequence
        X = X[np.newaxis, ...] # X has size 1 x NTimes x 128

        Y = dataY[j] # Y has size NTimes x 3

        for h in range(X.shape[1]):
            x = X[0,h,:]
            x = x[np.newaxis, np.newaxis, ...] # h-th vector in j-th sequence
            y = Y[h,:]
            y = y[np.newaxis, ...]
            loss += model.train_on_batch(x,y)
        model.reset_states() #After the end of the sequence

使用此代码,模型B)不能很好地训练。在我看来,训练没有收敛,损失值周期性地增加和减少 我还尝试仅将最后一个向量用作Y,并且它们在整个训练序列X上调用fit函数,但没有任何改进。

有什么主意吗?谢谢!

1 个答案:

答案 0 :(得分:2)

如果您希望序列的每个步骤仍具有三个输出,则需要像这样对Time Dense层进行TimeDistribute分配:

model.add(TimeDistributed(Dense(3, activation="linear")))

这将密集层分别应用于每个时间步。

请参见https://keras.io/layers/wrappers/#timedistributed