快速RCNN:将ROI应用于要素图

时间:2017-07-21 04:17:33

标签: machine-learning computer-vision deep-learning conv-neural-network object-detection

在快速RCNN中,我了解您首先将CNN应用于图像以获取要素图。然后,您使用生成外部对象检测器(selectivesearch)的ROI来获取潜在的感兴趣对象的边界框。但是,我不明白如何从与感兴趣区域相关联的要素图中获取要素。

实施例。应用Selectivesearch,我得到一个(x,y,宽度,高度)列表。然后,我应用CNN(inceptionv3)来获取2048x1特征向量(来自pool3层)。如何从图像的特征向量中获取感兴趣的区域,或者我是否错误地解释了此方法

感谢您的帮助!

1 个答案:

答案 0 :(得分:2)

然后您使用CNN进行分类任务,您的网络有两部分:

  1. 特征生成器。通过尺寸为WI x HICI频道的图片生成包含尺寸WF x HFCF频道的要素图的部分。图像大小和要素图大小之间的关系取决于您的NN的结构(例如,池化层的数量和它们的步幅)。此外,我们可以在CNN的这一部分中增加所有层的步幅,并获得Step值(稍后我们将使用它)
  2. Classificator 。将具有WF*HF*CF组件的分类向量任务解决为类的部分。
  3. 现在,如果您的图片尺寸为W x HW > WIH > HI,那么您可以应用网络的第一部分(因为在这部分只包含卷积和合并图层)并获取包含WFB > WFHFB > HF的要素图。 此要素图中尺寸为WF x HF的每个窗口都对应于源图像上的窗口WI x HI

    要素图上的矩形(0, 0, WF, HF)对应于图像上的矩形(0, 0, WI, HI)。矩形(1, 0, WF+1, HF)对应于图像上的矩形(Step, 0, WI + Step, HI)等。

    因此,如果您在要素图中具有ROI坐标,则可以返回到源图像上的ROI。