我正在阅读文章“由Jonathan Long *,Evan Shelhamer *和Trevor Darrell进行语义分割的完全卷积网络.CVPR 2015和PAMI 2016” 我想了解为什么它可以用于语义分割。让我们看一下fcn-32s架构,它包括两个阶段:特征提取(conv1-1-> pool5)和特征分类(fc6-> score_fr)。与普通分类网络比较,主要不同的是第二阶段。 FCN-32s通过fc7中的完全卷积层(1 x 1)替换完全连接的层,以保留空间图(如本文图2中的标题)。因此,我对这一点感到困惑:
答案 0 :(得分:6)
如果你看一下数学,"Convolution"
图层和"InnerProduct"
(又名"完全连接")图层基本上非常相似:它们对各自的感知区域执行线性操作。唯一的区别是"InnerProduct"
将整个输入视为其接收字段"而"Convolution"
图层仅查看输入中的kernel_size
窗口。
如果更改输入尺寸会发生什么?
"Convolution"
图层可以不在乎,它只是输出具有与新输入形状相对应的空间尺寸的要素图
另一方面,"InnerProduct"
图层失败,因为它的权重数量与感知字段的新尺寸不匹配。
更换具有"Convolution"
图层的模型中的顶部完全连接图层允许"滑动窗口"图像分类:从而实现粗略的语义分割 - 每个像素的标记而不是每个图像的标签。
输出标度与输出标签的粗略比例之间的比例差距仍然存在很大问题,但是有"Deconvolution"
层来弥补这一差距。