某些对象检测框架(如SSD(Single Shot MultiBox Detector)和Faster-RCNN)具有用于分类和回归的“卷积滤波器”。以下是来自SSD:
对于具有p个通道的大小为m×n的特征层,用于预测潜在检测参数的基本元素是3×3×p小内核,其产生类别的分数或相对于类别的形状偏移。默认的框坐标。在应用内核的每个m×n个位置,它产生一个输出值。
我的问题是:“小内核”的数量是否必须 p ?如何设置任意数 k (与特征通道不同)?
答案 0 :(得分:2)
在图中,部分extra Feature layers
显示small kernel
从每个输出位置提取p
向量的方式,用于预测不同aspect ratios
和{{1}的检测结果}}。
例如,从第一个卷积特征映射,p是class categories
,而对于第二个卷积特征映射,它是(3x(classes+4))
。数字(6x(classes+4))
和3
表示为这些要素图定义的6
框的数量,并且对于每个锚框,都有anchor
输出。
因此,您需要根据您为每个要素图确定的锚箱数量,以及要检测的类数量来修复classes + 4 box coordinates
。
我的问题是:“小内核”的数量是否必须为p?怎么样 关于设置任意数k(与特征不同) 信道)?
特征通道是p
通道卷积的结果,所以它总是需要大小为p,这是内核的输出通道大小。请注意3x3xp
实际上是3x3xp
,例如,第一个要素图层是通过将来自VGG的3 x 3 x in_channels x p
与内核38x38x512
进行卷积来获得3x3x512xp