如何在Keras中正确设置RNN以进行序列建模?

时间:2018-08-26 06:19:03

标签: python machine-learning keras deep-learning rnn

尽管对于机器学习不是新手,但对于神经网络,我还是相对较新,更具体地说,是如何实现它们(在Keras / Python中)。前馈和卷积架构相当简单,但是我在使用RNN时遇到了麻烦。

我的X数据由可变长度序列组成,该序列中的每个数据点都具有26个特征。我的y数据尽管长度可变,但每对Xy的长度相同,例如:

X_train[0].shape: (226,26)
y_train[0].shape: (226,)
X_train[1].shape: (314,26)
y_train[1].shape: (314,)
X_train[2].shape: (189,26)
y_train[2].shape: (189,)

我的目标是将序列中的每个项目分类为39个类别之一。

到目前为止,我从阅读示例代码中可以收集到的是,我们执行了以下操作:

encoder_inputs = Input(shape=(None, 26))
encoder = GRU(256, return_state=True)
encoder_outputs, state_h = encoder(encoder_inputs)
decoder_inputs = Input(shape=(None, 39))
decoder_gru= GRU(256, return_sequences=True)
decoder_outputs, _ = decoder_gru(decoder_inputs, initial_state=state_h)
decoder_dense = Dense(39, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(loss=keras.losses.categorical_crossentropy,
                  optimizer=keras.optimizers.Adadelta(),
                  metrics=['accuracy'])

这对我来说很有意义,因为每个序列的长度都不同。 因此,对于循环遍历所有序列的for循环,我们在第一GRU层的输入形状中使用None,因为我们不确定序列的长度是多少,然后返回隐藏状态state_h该编码器。随着第二个GRU层返回序列,并且初始状态是从编码器返回的状态,然后我们将输出传递到最终的softmax激活层。

很明显这里有些瑕疵,因为我得到了:

decoder_outputs, _ = decoder_gru(decoder_inputs, initial_state=state_h)
File "/usr/local/lib/python3.6/dist- 
packages/tensorflow/python/framework/ops.py", line 458, in __iter__
"Tensor objects are only iterable when eager execution is "
TypeError: Tensor objects are only iterable when eager execution is 
enabled. To iterate over this tensor use tf.map_fn.

This link指出了一种建议的解决方案,但我不明白为什么要为网络中的所有层将编码器状态添加到元组中。

我真的在寻求帮助,以便能够成功编写此RNN来完成此任务,同时也能理解。我对RNN非常感兴趣,并希望更深入地了解它们,以便将它们应用于其他问题。

请注意,每个序列的形状均为(sequence_length, 26),但我将维度扩展为(1, sequence_length, 26)的{​​{1}}和X的{​​{1}},然后将它们传递到适合的for循环中,使(1, sequence_length)领先于当前输入:

y

在我编写的其他网络(FeedForward和CNN)中,我通过在Keras的Sequential类之上添加层来指定模型。由于RNN的内在复杂性,我看到了使用Keras的Input类(如上所述)并检索隐藏状态(以及LSTM的单元状态)等的通用格式……这是合乎逻辑的,但是我也看到了它们是使用Keras的Sequential类构建的。尽管这些任务是多对一的,但我对您也将如何编写它感兴趣。

1 个答案:

答案 0 :(得分:2)

问题在于decoder_gru层不会返回其状态,因此您不应使用_作为该状态的返回值(即,仅删除, _):

decoder_outputs = decoder_gru(decoder_inputs, initial_state=state_h)

由于输入和输出的长度相同,并且输入和输出的元素之间存在一对一的映射关系,因此您可以选择以下方式构造模型:

inputs = Input(shape=(None, 26))
gru = GRU(64, return_sequences=True)(inputs)
outputs = Dense(39, activation='softmax')(gru)

model = Model(inputs, outputs)

现在,您可以通过相互堆叠多个GRU层来使该模型更复杂(即增加其容量):

inputs = Input(shape=(None, 26))
gru = GRU(256, return_sequences=True)(inputs)
gru = GRU(128, return_sequences=True)(gru)
gru = GRU(64, return_sequences=True)(gru)
outputs = Dense(39, activation='softmax')(gru)

model = Model(inputs, outputs)

此外,您可以使用具有更大表示能力的LSTM层(而不是使用GRU层)(当然,这可能会以增加计算成本为代价)。并且不要忘记,当您增加模型的容量时,也会增加过度拟合的机会。因此,您必须牢记这一点,并考虑防止过度拟合的解决方案(例如添加正则化)。

旁注::如果有可用的GPU,则可以改用CuDNNGRU(或CuDNNLSTM)层,该层已针对GPU优化,因此可以运行很多比GRU更快。