将CNN编码器的输出传递到convLSTM层。 (PyTorch)

时间:2020-10-28 08:52:21

标签: deep-learning computer-vision pytorch cnn semantic-segmentation

我对实现基于LinkNet的编码器-解码器结构以对自定义数据集进行语义分段感兴趣。我正在尝试在编码器和解码器之间引入convLSTM层。通常,如预期的那样,编码器的输出是4角输出(batch_size,通道,高度,宽度)。 convLSTM层需要一个5维输入(batch_size,sequence_length,channels,height,width)。如何将这4维张量转换为5维张量而又不丢失任何信息?最初,我曾想过将batch_size拆分为也可以容纳sequence_length,但这可能是个问题,因为我正在处理视频帧。

也许我正在研究使用四个/五个帧的序列进行训练,即帧 t 的语义分割图是通过最后三到四个帧的信息确定的,因此,则sequence_length为4或5即可。

如何介绍序列长度?是在预处理期间还是紧接在编码器结构之后?

最重要的是,怎么做?

1 个答案:

答案 0 :(得分:0)

不能。 ConvLSTM需要一个序列,这是您缺少的维度。 LinkNet只将一张图像作为输入,因此您实际上无法在Linknet中使用ConvLSTM。