堆叠卷积网络和循环层

时间:2018-05-31 14:25:01

标签: python keras lstm recurrent-neural-network

我正致力于视频序列的分类器。它应该在输入和输出标签上需要几个视频帧,0或1.因此,它是一个多对一的网络。

我已经有一个单帧分类器。此分类器使用Conv2D进行多次卷积,然后应用GlobalAveragePooling2D。这导致长度为64的1D向量。然后原始的每帧分类器具有带有softmax激活的Dence层。

现在我想扩展这个分类器来处理序列。理想情况下,序列应该具有不同的长度,但是现在我将长度固定为4。

要扩展我的分类器,我将使用1个单位的LSTM图层替换Dense。所以,我的目标是让LSTM层一个接一个地取几个长度为64的1D向量,然后输出一个标签。

示意图,我现在拥有的东西:

input(99, 99, 3) - [convolutions] - features(1, 64) - [Dense] - [softmax] - label(1, 2)

理想的架构:

4x { input(99, 99, 3) - [convolutions] - features(1, 64) } - [LSTM] - label(1, 2)

我无法弄清楚,如何用Keras做到这一点。

这是我的卷积代码

from keras.layers import Conv2D, BatchNormalization, GlobalAveragePooling2D, \
LSTM, TimeDistributed

IMAGE_WIDTH=99
IMAGE_HEIGHT=99
IMAGE_CHANNELS=3

convolutional_layers = Sequential([
    Conv2D(input_shape=(IMAGE_WIDTH, IMAGE_HEIGHT, IMAGE_CHANNELS),
           filters=6, kernel_size=(3, 3), strides=(2, 2), activation='relu',
           name='conv1'),
    BatchNormalization(),
    Conv2D(filters=64, kernel_size=(1, 1), strides=(1, 1), activation='relu',
           name='conv5_pixel'),
    BatchNormalization(),
    GlobalAveragePooling2D(name='avg_pool6'),
])

以下是摘要:

In [24]: convolutional_layers.summary()
_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
conv1 (Conv2D)               (None, 49, 49, 6)         168
_________________________________________________________________
batch_normalization_3 (Batch (None, 49, 49, 6)         24
_________________________________________________________________
conv5_pixel (Conv2D)         (None, 49, 49, 64)        448
_________________________________________________________________
batch_normalization_4 (Batch (None, 49, 49, 64)        256
_________________________________________________________________
avg_pool6 (GlobalAveragePool (None, 64)                0
=================================================================
Total params: 896
Trainable params: 756
Non-trainable params: 140

现在我想要一个循环层来处理这些64维向量的序列,并为每个序列输出一个标签。

我已在手册中读到TimeDistributed图层将其输入图层应用于输入数据的每个时间片。

我继续我的代码:

FRAME_NUMBER = 4

td = TimeDistributed(convolutional_layers, input_shape=(FRAME_NUMBER, 64))
model = Sequential([
    td,
    LSTM(units=1)
])

结果是例外IndexError: list index out of range

的相同例外
td = TimeDistributed(convolutional_layers, input_shape=(None, FRAME_NUMBER, 64))

我做错了什么?

1 个答案:

答案 0 :(得分:1)

扩大评论的答案; TimeDistributed层将给定图层应用于输入的每个时间步。因此,您的TimeDistributed将应用于给出输入shape=(F_NUM, W, H, C)的每个帧。将卷积应用于每个图像后,您将返回(F_NUM, 64),它们是每个帧的特征。