我正在处理具有两个类别的视频数据集(不同长度)。
我在keras中使用了预训练的inception v3 / Xception模型,该模型接受(None,299,299,3)的输入大小或299x299大小的帧,并接受大小的输出功能(无,8,10,2048)。
我正在尝试将这些输出功能传递到另一个LSTM模型中进行分类,但是它给了我input_shape错误
我使用的LSTM是:
model = Sequential()
model.add(LSTM(512, input_shape=(None,2048)))
model.add(Dense(128, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(2, activation='softmax'))
我的问题是:
在将Inception / Xception模型的输出传递到LSTM模型之前,我是否需要对其进行展平?
在拟合LSTM模型之前,所有视频的长度都应该相同吗?保留不同长度的视频有哪些优点/缺点?