边界框的尺度不变和对数空间转换是什么?

时间:2019-04-06 21:45:34

标签: computer-vision object-detection image-recognition bounding-box faster-rcnn

在慢R-CNN论文中,边界框回归的目标是学习一种将拟议的边界框P映射到地面真实框G的变换,并根据四个函数dx(P),dy对变换进行参数化(P),dw(P),dh(P)。

  • 前2个表示 P边界框中心的尺度不变转换,而

  • 第二个第二个指定 P边框相对于对象提议的宽度和高度的对数空间转换

这与Fast-RCNN论文中用于BB预测的技术相同!

  

问题1。谁能帮助我了解边界框的尺度不变性和对数空间(两者)的相关性 以及这两个函数如何捕获这两个方面?

     

问题2。上述 BB尺度不变翻译 与实现 尺度不变对象检测 有何不同(解释如下) ?

我的意思是,在快速R-CNN中,作者指出,以下两种方法可以实现目标检测中的尺度不变性:

  • 首先,蛮力方法,在训练和测试期间,每个图像均以预定的像素大小进行处理。网络必须直接从训练数据中学习尺度不变对象检测

  • 第二种方法是使用图像金字塔。

请随时引用研究论文,以便我阅读以深入了解。

1 个答案:

答案 0 :(得分:1)

这些功能dx(P), dy(P), dw(P), dh(P)的目标是从提议框转换为地面框。它们被建模为来自特征图的合并特征的线性函数,并且包含可学习的参数(权重)。

该论文指出,dx(P), dy(P)指定了P边界框中心的比例不变平移,请注意,它是他们指定了但没有指定,那么此平移是什么呢?翻译看起来像这样:

enter image description here

要了解什么是尺度不变性,我们可以从为什么需要它开始?因为提案bbox的大小可能不同。 在下面的图片中,带有蝙蝠的人和投掷者的建议bbox的大小不同,在ROI合并后,它们将被表示为固定的相同形状特征向量(FIXED AND SAME SHAPE!)。回归器进行预测时,仅预测值dx(P)dy(P),而不会区分特征向量来自哪个提案bbox。在将此值应用于输入图像时,由于我们已经拥有了提案bbox(Px, Py, Pw, Ph)提供的信息,因此可以通过转换来简单地计算输入图像中bbox的中心!(注意这两个提议都是同班人,所以回归者可以是相同的,否则回归者是不同的

enter image description here

至于后面的两个转换:

enter image description here

如果在双方都应用对数变换,则会看到:

enter image description here


dw(P)dh(P)指定日志空间转换!

对于第二个问题,边界框回归是整个检测管道的一部分,仅用于bbox回归。除了bbox回归之外,对象检测还必须处理图像分类,提案生成等。例如,在提案生成期间应用金字塔图像。

enter image description here