为什么过滤器和要素图层具有相同数量的渠道?

时间:2018-05-31 02:27:23

标签: deep-learning computer-vision conv-neural-network detection object-detection

某些对象检测框架(如SSD(Single Shot MultiBox Detector)和Faster-RCNN)具有用于分类和回归的“卷积滤波器”。以下是来自SSD:

  

对于具有p个通道的大小为m×n的特征层,用于预测潜在检测参数的基本元素是3×3×p小内核,其产生类别的分数或相对于类别的形状偏移。默认的框坐标。在应用内核的每个m×n个位置,它产生一个输出值。

我的问题是:“小内核”的数量是否必须 p ?如何设置任意数 k (与特征通道不同)?

1 个答案:

答案 0 :(得分:2)

enter image description here

在图中,部分extra Feature layers显示small kernel从每个输出位置提取p向量的方式,用于预测不同aspect ratios和{{1}的检测结果}}。

例如,从第一个卷积特征映射,p是class categories,而对于第二个卷积特征映射,它是(3x(classes+4))。数字(6x(classes+4))3表示为这些要素图定义的6框的数量,并且对于每个锚框,都有anchor输出。

因此,您需要根据您为每个要素图确定的锚箱数量,以及要检测的类数量来修复classes + 4 box coordinates

  

我的问题是:“小内核”的数量是否必须为p?怎么样   关于设置任意数k(与特征不同)   信道)?

特征通道是p通道卷积的结果,所以它总是需要大小为p,这是内核的输出通道大小。请注意3x3xp实际上是3x3xp,例如,第一个要素图层是通过将来自VGG的3 x 3 x in_channels x p与内核38x38x512进行卷积来获得3x3x512xp