LSTM多对多培训独立示例

时间:2018-08-14 17:59:56

标签: python machine-learning keras time-series lstm

我仍在找出LSTM,并尝试提出最佳和适当的训练程序和数据形状。

时间序列表示音符。我们称它为歌曲。所以我有以下形式的数据。该系列由单热编码的音符组成。因此,它们的形状为(timesteps, features)。通过转置(调高该系列的音符)该系列的副本有十二次。然后,一首歌将变成(12, timesteps, features)。这十二个系列中的每个系列都应接受独立培训。此外,还有多首歌曲,长度各不相同。

我想训练LSTM,以便在系列的每个步骤都做出预测。因此,这十二个系列之一的训练数据将是X = series[:-1, :], Y = series[1:, :],并且对于所有十二个版本都类似。

# Example data, numbers not one-hot encoded for brevity
series = [1, 3, 2, 4, 7, 7, 10]
X = [1, 3, 2, 4, 7, 7]
Y = [3, 2, 4, 7, 7, 10]   # Shifted 1 step back

这十二个变体将创建一个自然的批次,因为长度不变。但我对您的问题是:可以安排培训,以便将这些变体以每批十二个的形式输入到网络中,但是可以进行多对多的培训吗?(每个步骤一次一种预测)

目前,我有一个示例似乎是a naïve approach。它将时间步长一步一步地馈送到网络,并在两者之间保持状态:

# X = (12 * timesteps, 1, features), Y = (12 * timesteps, features)
model = Sequential()
model.add(LSTM(256, input_shape=(None, X.shape[-1]), batch_size=1, stateful=True))
model.add(Dense(Y.shape[-1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['categorical_accuracy'])

for epoch in range(10):
    model.fit(X, Y, epochs=1, batch_size=1, shuffle=False)
    model.reset_states()

对于十二首变奏曲中的一首歌,如何实现上述训练制度?

1 个答案:

答案 0 :(得分:1)

正如您在评论中提到的那样,您需要在TimeDistributed内包装一个LSTM层。这样,将分别处理12个变体中的每个变体。此外,由于每个特征向量都是单次编码的,因此我们在网络的最后一层添加了一个softmax激活的密集层:

from keras import models, layers

n_features = 20

model_input = layers.Input(shape=(12, None, n_features))
x = layers.TimeDistributed(layers.LSTM(64, return_sequences=True))(model_input)
model_output = layers.Dense(n_features, activation='softmax')(x)

model = models.Model([model_input], [model_output])
model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
model.summary()

这是模型摘要:

Layer (type)                 Output Shape              Param #   
=================================================================
input_1 (InputLayer)         (None, 12, None, 20)      0         
_________________________________________________________________
time_distributed_1 (TimeDist (None, 12, None, 64)      21760     
_________________________________________________________________
dense_1 (Dense)              (None, 12, None, 20)      1300      
=================================================================
Total params: 23,060
Trainable params: 23,060
Non-trainable params: 0
_________________________________________________________________

请注意,此模型对于您的问题可能非常简单。您可能希望将更多的LSTM层堆叠在一起,并根据要解决的特定问题更改参数以获得更好的精度(最后必须进行实验!);但它使您大致了解这种情况下模型的外观。尽管它似乎似乎无关紧要,但我建议您阅读Keras官方博客中的Seq2Seq tutorial,以获得更多有关这方面的想法。

请注意,如果您使用的是GPU,则可以使用CuDNNLSTM层而不是LSTM;它在GPU上提供了更好的性能。