在此tutorial中,输出量在输出[25]中说明,感受域在输出[26]中指定。
好的,输入量[3, 227, 227]
与大小为[3, 11, 11]
的区域进行卷积。
使用此formula (W−F+2P)/S+1
,其中:
W
=输入音量
F
=接受字段大小
P
=填充
S
= stride
... (227 - 11)/4 + 1 = 55
的结果,即 [55 * 55 * 96] 。到目前为止一切顺利:)
对于'pool1',我认为他们使用F=3
和S=2
?计算结果:55-3/2+1=27
。
从这一点来说,我有点困惑。第二个网络层的感知字段为[48, 5, 5]
,但“conv2”的输出等于[256, 27, 27]
。这里发生了什么计算?
然后,'conv3'到'conv4'的输出音量的高度和宽度都是相同的[13, 13]
?这是怎么回事?
谢谢!
答案 0 :(得分:3)
如果仔细观察parameters of conv2
layer,您会注意到
<img /> <img /> <img /> <br />
<img class="lg" />
也就是说,输入blob被周围的2个额外像素填充,因此公式现在是
pad: 2
从两边填充27 + 2 + 2 - ( 5 - 1 ) = 27
的内核大小5
像素会产生相同的输出大小。