Question

我创建了一个视频数据集，其中每个视频的尺寸为5（帧）x 32（宽度）x 32（高度）x 4（通道）。我正在尝试使用CNN LSTM网络对这些视频进行分类（二进制分类），但是我对输入形状以及如何重塑数据集以训练网络感到困惑。

model = Sequential()
model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv1', input_shape=??))
model.add(TimeDistributed(MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same', name='pool1')))

model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv2'))
model.add(TimeDistributed(MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same', name='pool2')))

model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv3'))
model.add(TimeDistributed(MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same', name='pool3')))

model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv4'))
model.add(TimeDistributed(MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same', name='pool4')))


model.add(TimeDistributed(Flatten()))
model.add(LSTM(256, return_sequences=False, dropout=0.5))
model.add(Dense(1, activation='sigmoid'))

我是否缺少模型中的任何内容？

Answer 1

您的输入形状应为(batch_size, time steps, height, width, channels)。因此它应该是5维张量。

此外，您的input_shape参数应该像这样。它应该是TimeDistributed层的参数，而不是Conv2D层的参数，因为TimeDistributed是第一层。在这里，我显示的是输入形状，

任意数量的样本数量
5个时间步（视频帧）
高32v像素（高）
宽32像素（宽）
4个频道

model.add(TimeDistributed(Conv2D(64, 5, activation='relu', padding='same', name='conv1'), input_shape=(5, 32, 32, 4)))

CNN LSTM keras用于视频分类

1 个答案: