卷积层如何完全适用于分段任务?

时间:2017-01-23 08:28:47

标签: image-processing computer-vision deep-learning caffe image-segmentation

我正在阅读文章“由Jonathan Long *,Evan Shelhamer *和Trevor Darrell进行语义分割的完全卷积网络.CVPR 2015和PAMI 2016” 我想了解为什么它可以用于语义分割。让我们看一下fcn-32s架构,它包括两个阶段:特征提取(conv1-1-> pool5)和特征分类(fc6-> score_fr)。与普通分类网络比较,主要不同的是第二阶段。 FCN-32s通过fc7中的完全卷积层(1 x 1)替换完全连接的层,以保留空间图(如本文图2中的标题)。因此,我对这一点感到困惑:

  1. 如果我们用完全卷积层替换完全连接的层, 如何将重量作为传统分类来学习 架构?
  2. 为什么我们可以使用完全卷积图层来保留空间地图(热图)?
  3. 提前谢谢。

    更新:这是显示如何从完全连接到完全卷积层转换的图 enter image description here

1 个答案:

答案 0 :(得分:6)

如果你看一下数学,"Convolution"图层和"InnerProduct"(又名"完全连接")图层基本上非常相似:它们对各自的感知区域执行线性操作。唯一的区别是"InnerProduct"将整个输入视为其接收字段"而"Convolution"图层仅查看输入中的kernel_size窗口。

如果更改输入尺寸会发生什么? "Convolution"图层可以不在乎,它只是输出具有与新输入形状相对应的空间尺寸的要素图 另一方面,"InnerProduct"图层失败,因为它的权重数量与感知字段的新尺寸不匹配。

更换具有"Convolution"图层的模型中的顶部完全连接图层允许"滑动窗口"图像分类:从而实现粗略的语义分割 - 每个像素的标记而不是每个图像的标签。

输出标度与输出标签的粗略比例之间的比例差距仍然存在很大问题,但是有"Deconvolution"层来弥补这一差距。