我正在尝试实现一种LSTM网络。 LSTM需要从多个层的N个图像中获取特征图。因此,需要以相同的方式为所有N个图像计算这些特征图。所以理想情况下网络看起来像这样:
问题是Caffe似乎没有办法做到这一点。我可以将我的数据点(由3个图像组成)切割成这3个图像,然后我可以在其上运行单独的Conv + Pool图层来获取我的要素图。但这不是我在培训期间想要的。在传递到LSTM分层网络之前,所有三个图像需要具有相同的Conv +池权重。如何实现呢。
我不能在这里使用批量大小的概念,因为我正在训练多帧序列,因此每个批次由M个数据点组成,每个数据点有3个图像。