我正在研究CNN功能的早期和晚期融合。我从多层CNN中获取了一些功能。对于早期融合,我已经捕获了三个不同层的特征,然后水平连接它们F= [F1' F2' F3'];
对于晚期融合,我正在阅读这个paper。他们提到要做两次监督学习。但是无法理解这种方式。
例如,这是从上述论文中提取的图像。 第一个图像具有三个不同的特征,对于第一个监督学习,标签可以说是4个图像集中的1个。输出例如是[1 1 3]。可以说第三个分类器有错误的结果。 然后我的问题是多模式特征连接就像[1 1 3],标签1让我们说第1类图像?
答案 0 :(得分:3)
例如
模型-1:[[0.3],[0.7]]
模型-2:[[0.2],[0.8]]
模型-2:[[0.6],[0.4]]
现在您将连接(多模式特征组合)结果如下:
[0.3,0.2,0.6,0.7,0.8,0.4]
上述特征向量将作为输入给您的最终受监督学习者,如图中所提到的,概念得分作为受监督学习者的输入
在论文中,他们提到如下:
我们将视觉矢量vi与文本矢量ti连接起来
在特征归一化之后,我们获得早期融合矢量ei
然后ei作为SVM的输入。
现在,我们来谈谈这个模型的实现