Question

我仍在找出LSTM，并尝试提出最佳和适当的训练程序和数据形状。

时间序列表示音符。我们称它为歌曲。所以我有以下形式的数据。该系列由单热编码的音符组成。因此，它们的形状为(timesteps, features)。通过转置（调高该系列的音符）该系列的副本有十二次。然后，一首歌将变成(12, timesteps, features)。这十二个系列中的每个系列都应接受独立培训。此外，还有多首歌曲，长度各不相同。

我想训练LSTM，以便在系列的每个步骤都做出预测。因此，这十二个系列之一的训练数据将是X = series[:-1, :], Y = series[1:, :]，并且对于所有十二个版本都类似。

# Example data, numbers not one-hot encoded for brevity
series = [1, 3, 2, 4, 7, 7, 10]
X = [1, 3, 2, 4, 7, 7]
Y = [3, 2, 4, 7, 7, 10]   # Shifted 1 step back

这十二个变体将创建一个自然的批次，因为长度不变。但我对您的问题是：可以安排培训，以便将这些变体以每批十二个的形式输入到网络中，但是可以进行多对多的培训吗？（每个步骤一次一种预测）

目前，我有一个示例似乎是a naïve approach。它将时间步长一步一步地馈送到网络，并在两者之间保持状态：

# X = (12 * timesteps, 1, features), Y = (12 * timesteps, features)
model = Sequential()
model.add(LSTM(256, input_shape=(None, X.shape[-1]), batch_size=1, stateful=True))
model.add(Dense(Y.shape[-1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['categorical_accuracy'])

for epoch in range(10):
    model.fit(X, Y, epochs=1, batch_size=1, shuffle=False)
    model.reset_states()

对于十二首变奏曲中的一首歌，如何实现上述训练制度？

Answer 1

正如您在评论中提到的那样，您需要在TimeDistributed内包装一个LSTM层。这样，将分别处理12个变体中的每个变体。此外，由于每个特征向量都是单次编码的，因此我们在网络的最后一层添加了一个softmax激活的密集层：

from keras import models, layers

n_features = 20

model_input = layers.Input(shape=(12, None, n_features))
x = layers.TimeDistributed(layers.LSTM(64, return_sequences=True))(model_input)
model_output = layers.Dense(n_features, activation='softmax')(x)

model = models.Model([model_input], [model_output])
model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
model.summary()

这是模型摘要：

Layer (type)                 Output Shape              Param #   
=================================================================
input_1 (InputLayer)         (None, 12, None, 20)      0         
_________________________________________________________________
time_distributed_1 (TimeDist (None, 12, None, 64)      21760     
_________________________________________________________________
dense_1 (Dense)              (None, 12, None, 20)      1300      
=================================================================
Total params: 23,060
Trainable params: 23,060
Non-trainable params: 0
_________________________________________________________________

请注意，此模型对于您的问题可能非常简单。您可能希望将更多的LSTM层堆叠在一起，并根据要解决的特定问题更改参数以获得更好的精度（最后必须进行实验！）；但它使您大致了解这种情况下模型的外观。尽管它似乎似乎无关紧要，但我建议您阅读Keras官方博客中的Seq2Seq tutorial，以获得更多有关这方面的想法。

请注意，如果您使用的是GPU，则可以使用CuDNNLSTM层而不是LSTM；它在GPU上提供了更好的性能。

LSTM多对多培训独立示例

1 个答案: