我正在阅读这份研究论文fully convolutional network for semantic segmentation,以下是该论文的引文
这些网络的完全连接的层具有固定的尺寸并丢弃了空间坐标。 但是,这些完全连接的层也可以看作是覆盖了整个输入区域的内核的卷积。。
我不理解粗体部分,但是在互联网上进行了一些研究之后,我得出的结论是,如果我删除最后一层(即完全连接的层),然后卷积最后一层(在删除完全连接的层之前倒数第二个) )具有三个1x1内核,我将做与粗体部分相同的操作。 我可以在这里纠正吗?
为什么要使用三个1x1内核?
因为在纸上,他们从原始输入中在rgb中创建了一个热图,并且rgb意味着三个通道,但是卷积网络(没有完全连接的层)的结果具有许多通道(高维),因此需要使用三个1x1内核进行卷积它是一个rbg图片。 Image from paper
答案 0 :(得分:1)
假设您在倒数第二层中有一个 200X200 的矩阵。 然后,如果您要使用全连接层,您会将 200X200 矩阵转换为单个一维数组。 这意味着一个大小为 40000 的数组。这就是丢弃空间坐标的意思。如果您正在应用 1x1 内核,则会发生同样的事情。你会得到一个类似的,像素值没有变化。