我对实现基于LinkNet的编码器-解码器结构以对自定义数据集进行语义分段感兴趣。我正在尝试在编码器和解码器之间引入convLSTM层。通常,如预期的那样,编码器的输出是4角输出(batch_size,通道,高度,宽度)。 convLSTM层需要一个5维输入(batch_size,sequence_length,channels,height,width)。如何将这4维张量转换为5维张量而又不丢失任何信息?最初,我曾想过将batch_size拆分为也可以容纳sequence_length,但这可能是个问题,因为我正在处理视频帧。
也许我正在研究使用四个/五个帧的序列进行训练,即帧 t 的语义分割图是通过最后三到四个帧的信息确定的,因此,则sequence_length为4或5即可。
如何介绍序列长度?是在预处理期间还是紧接在编码器结构之后?
最重要的是,怎么做?
答案 0 :(得分:0)
不能。 ConvLSTM需要一个序列,这是您缺少的维度。 LinkNet只将一张图像作为输入,因此您实际上无法在Linknet中使用ConvLSTM。