deep-learning - 为什么过滤器和要素图层具有相同数量的渠道？

时间：2018-05-31 02:27:23

标签： deep-learning computer-vision conv-neural-network detection object-detection

某些对象检测框架（如SSD（Single Shot MultiBox Detector）和Faster-RCNN）具有用于分类和回归的“卷积滤波器”。以下是来自SSD：

对于具有p个通道的大小为m×n的特征层，用于预测潜在检测参数的基本元素是3×3×p小内核，其产生类别的分数或相对于类别的形状偏移。默认的框坐标。在应用内核的每个m×n个位置，它产生一个输出值。

我的问题是：“小内核”的数量是否必须 p ？如何设置任意数 k （与特征通道不同）？

答案 0 :(得分：2)

在图中，部分extra Feature layers显示small kernel从每个输出位置提取p向量的方式，用于预测不同aspect ratios和{{1}的检测结果}}。

例如，从第一个卷积特征映射，p是class categories，而对于第二个卷积特征映射，它是(3x(classes+4))。数字(6x(classes+4))和3表示为这些要素图定义的6框的数量，并且对于每个锚框，都有anchor输出。

因此，您需要根据您为每个要素图确定的锚箱数量，以及要检测的类数量来修复classes + 4 box coordinates。

我的问题是：“小内核”的数量是否必须为p？怎么样关于设置任意数k（与特征不同）信道）？

特征通道是p通道卷积的结果，所以它总是需要大小为p，这是内核的输出通道大小。请注意3x3xp实际上是3x3xp，例如，第一个要素图层是通过将来自VGG的3 x 3 x in_channels x p与内核38x38x512进行卷积来获得3x3x512xp