他们是如何计算Caffe中这个令人信服的例子的输出量?

时间:2015-10-06 21:02:06

标签: machine-learning neural-network convolution deep-learning caffe

在此tutorial中,输出量在输出[25]中说明,感受域在输出[26]中指定。

好的,输入量[3, 227, 227]与大小为[3, 11, 11]的区域进行卷积。

使用此formula (W−F+2P)/S+1 ,其中:
W =输入音量
F =接受字段大小
P =填充
S = stride

... (227 - 11)/4 + 1 = 55的结果,即 [55 * 55 * 96] 。到目前为止一切顺利:)

对于'pool1',我认为他们使用F=3S=2?计算结果:55-3/2+1=27

从这一点来说,我有点困惑。第二个网络层的感知字段为[48, 5, 5],但“conv2”的输出等于[256, 27, 27]。这里发生了什么计算?

然后,'conv3'到'conv4'的输出音量的高度和宽度都是相同的[13, 13]?这是怎么回事?

谢谢!

1 个答案:

答案 0 :(得分:3)

如果仔细观察parameters of conv2 layer,您会注意到

<img /> <img /> <img /> <br />
<img class="lg" />

也就是说,输入blob被周围的2个额外像素填充,因此公式现在是

   pad: 2

从两边填充27 + 2 + 2 - ( 5 - 1 ) = 27 的内核大小5像素会产生相同的输出大小。