在快速RCNN中,我了解您首先将CNN应用于图像以获取要素图。然后,您使用生成外部对象检测器(selectivesearch)的ROI来获取潜在的感兴趣对象的边界框。但是,我不明白如何从与感兴趣区域相关联的要素图中获取要素。
实施例。应用Selectivesearch,我得到一个(x,y,宽度,高度)列表。然后,我应用CNN(inceptionv3)来获取2048x1特征向量(来自pool3层)。如何从图像的特征向量中获取感兴趣的区域,或者我是否错误地解释了此方法
感谢您的帮助!
答案 0 :(得分:2)
然后您使用CNN进行分类任务,您的网络有两部分:
WI x HI
和CI
频道的图片生成包含尺寸WF x HF
和CF
频道的要素图的部分。图像大小和要素图大小之间的关系取决于您的NN的结构(例如,池化层的数量和它们的步幅)。此外,我们可以在CNN的这一部分中增加所有层的步幅,并获得Step
值(稍后我们将使用它)WF*HF*CF
组件的分类向量任务解决为类的部分。现在,如果您的图片尺寸为W x H
,W > WI
和H > HI
,那么您可以应用网络的第一部分(因为在这部分只包含卷积和合并图层)并获取包含WFB > WF
和HFB > HF
的要素图。
此要素图中尺寸为WF x HF
的每个窗口都对应于源图像上的窗口WI x HI
。
要素图上的矩形(0, 0, WF, HF)
对应于图像上的矩形(0, 0, WI, HI)
。矩形(1, 0, WF+1, HF)
对应于图像上的矩形(Step, 0, WI + Step, HI)
等。
因此,如果您在要素图中具有ROI坐标,则可以返回到源图像上的ROI。