CNN功能的后期融合

时间:2018-03-22 20:56:02

标签: matlab machine-learning computer-vision conv-neural-network feature-extraction

我正在研究CNN功能的早期和晚期融合。我从多层CNN中获取了一些功能。对于早期融合,我已经捕获了三个不同层的特征,然后水平连接它们F= [F1' F2' F3'];对于晚期融合,我正在阅读这个paper。他们提到要做两次监督学习。但是无法理解这种方式。

例如,这是从上述论文中提取的图像。 第一个图像具有三个不同的特征,对于第一个监督学习,标签可以说是4个图像集中的1个。输出例如是[1 1 3]。可以说第三个分类器有错误的结果。 然后我的问题是多模式特征连接就像[1 1 3],标签1让我们说第1类图像?

enter image description here

1 个答案:

答案 0 :(得分:3)

  • 我可能错了,但这是我的理解(我不确定我的回答)
  • 因此,假设您有2个班级,并且您有3个不同的模型
  • 因此每个模型都会输出(2 x 1)
  • 的向量
  • 例如

    模型-1:[[0.3],[0.7]]
      模型-2:[[0.2],[0.8]]
      模型-2:[[0.6],[0.4]]

  • 现在您将连接(多模式特征组合)结果如下:
        [0.3,0.2,0.6,0.7,0.8,0.4]

  • 上述特征向量将作为输入给您的最终受监督学习者,如图中所提到的,概念得分作为受监督学习者的输入

  • 在论文中,他们提到如下:
     我们将视觉矢量vi与文本矢量ti连接起来  在特征归一化之后,我们获得早期融合矢量ei  然后ei作为SVM的输入。

  • 现在,我们来谈谈这个模型的实现

  • 我要做的是先单独训练Model-1,单独训练Model-2,单独训练Model-3
  • 现在我将冻结Model-1,Model-2,Model-3的权重并提取分数并将它们组合成如上所述的特征向量,并将其传递给最终的受监督学习者并进行训练
  • 将三个Unimodal监督学习者视为特征提取器并将其结果连接起来,就像您为早期融合所做的那样并将其传递给SVM
  • 我会将课程分数作为特征向量,而不是他们假设的实际预测
  • 为什么课堂成绩而不是实际预测?因为班级分数代表单峰人对他们预测班级的信心