快速R-CNN中ROI层的目的是什么?

时间:2017-04-15 18:58:42

标签: deep-learning computer-vision conv-neural-network object-detection

在关于对象检测的this教程中,提到了快速R-CNN。还提到了ROI(感兴趣区域)层。

根据最终卷积层激活函数(在每个单元格中)根据最终卷积层激活函数调整区域提议的数学上发生了什么?

2 个答案:

答案 0 :(得分:13)

感兴趣区域(RoI)合并:

这是一种池化层,它对非均匀大小的输入(此处为回旋特征映射)执行 max pooling ,并生成一个固定大小的小特征映射(比如7x7)。此固定大小的选择是网络超参数,并且是预定义的。

进行此类汇集的主要目的是加快培训和测试时间,并从端到端(以联合方式)培训整个系统。

这是因为这个汇集层的使用是培训和与原始(vanilla?)R-CNN架构相比,测试时间更快,因此名称​​ Fast R-CNN。

简单示例(来自Region of interest pooling explained by deepsense.io):

Visualization of RoI Pooling

答案 1 :(得分:11)

ROI(感兴趣区域)层在Fast R-CNN中引入,是Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition中引入的空间金字塔池层的特例。由于完全连接层中的大小约束,ROI层的主要功能是将具有任意大小的整形输入转换为固定长度输出。

投资回报率层的工作原理如下所示:

enter image description here

在此图像中,任意大小的输入图像被送入该层,该层具有3个不同的窗口:4x4(蓝色),2x2(绿色),1x1(灰色),以产生固定大小为16 x F的输出,4 x F和1 x F,其中F是滤波器的数量。然后,将这些输出连接成矢量以馈送到完全连接层。