In the Fast RCNN approach, region proposals in the original image are projected onto the output of the final convolutional feature map. In the case of the VGG net, the input image is of size 224 x 244 and the final output of the convolutional feature map 14 x 14 x 512.
Does this mean that proposals on the input image are projected onto the feature map for ROI pooling ? Is the projection a simple scaling of the bounding box ?
答案 0 :(得分:0)
本文很好地描述了RoI池以及如何从原始标签中获得等效于功能图的RoI BB。
https://medium.com/datadriveninvestor/review-on-fast-rcnn-202c9eadd23b
RoI池的基本目的是从CNN输出特征图的任意大小部分输出固定大小的特征图。
为此,您必须进行RoI投影才能将RoI BB(x,y,h,w)从原始图像转换为功能图中所需的RoI BB。这是通过根据子采样率对其进行缩放来完成的。
例如)
然后,您只需在要素地图的该部分上进行合并即可,并使用H×W个大小为〜h'/ H×w'/ W的合并窗口,其中H和W是目标的高度和宽度池层的输出。
本文提供了更好的描述,我鼓励您检查一下该文章以及原始论文!