我使用VGG 16-Layer Caffe模型用于图像标题,每个图像都有几个标题。现在,我想从那些字幕(单词)中生成一个句子
我在一篇关于LSTM的论文中读到,我应该从训练网络中删除SoftMax层,并将fc7
层中的4096特征向量直接提供给LSTM。
我是LSTM和RNN的新手
我应该从哪里开始?是否有任何教程展示如何通过序列标记生成句子?
答案 0 :(得分:4)
BVLC / caffe的主分支AFAIK尚不支持循环层架构。
您应该从jeffdonahue/caffe提取分支recurrent
。该分支支持RNN和LSTM
它还包含有关如何使用example数据生成图像标题的详细MS COCO。