更快的RCNN:如何翻译坐标

时间:2017-05-30 10:21:27

标签: machine-learning tensorflow computer-vision deep-learning

我试图在我自己的数据上理解并使用Faster R-CNN算法。

我的问题是关于ROI坐标:我们所拥有的标签,以及我们最终想要的是输入图像中的ROI坐标。但是,如果我理解正确,在卷积特征图中给出了锚框,那么ROI回归给出了相对于锚框的ROI坐标(这样可以很容易地转换为转换特征图坐标中的坐标),然后是{{3} part使用卷积特征映射中的坐标进行ROI汇集,并自行(分类和)回归边界框坐标。

考虑到原始图像和卷积特征之间,发生了一些卷积和聚集,可能有步幅>1(子采样),我们如何将原始图像中的坐标与特征空间中的坐标相关联(两种方式) )?

我们应该如何给出锚箱大小:相对于输入图像大小,还是卷积特征图?

Fast-RCNN对边界框的回归如何表达? (我猜:相对于投资回报率提案,类似于相对于锚箱的提案编码;但我不确定)

2 个答案:

答案 0 :(得分:1)

看起来它实际上是一个实现问题,方法本身并没有回答这个问题。

Tensorflow Object Detection API使用的一种好方法是始终相对于图层的输入大小给出坐标​​和ROI大小。也就是说,所有坐标和大小都是01之间的实数。同样对于锚箱。

这很好地处理了下采样的问题,并且可以轻松计算ROI坐标。

答案 1 :(得分:0)

如果您未在图层上使用激活功能,则结果将为原始数字。这些原始数字基本上与坐标(标签)直接相关联。

使用softmax或relu等激活函数会给出概率值,这会导致分类解决方案,而不是回归。