在慢R-CNN论文中,边界框回归的目标是学习一种将拟议的边界框P映射到地面真实框G的变换,并根据四个函数dx(P),dy对变换进行参数化(P),dw(P),dh(P)。
前2个表示 P边界框中心的尺度不变转换,而
第二个第二个指定 P边框相对于对象提议的宽度和高度的对数空间转换。
这与Fast-RCNN论文中用于BB预测的技术相同!
问题1。谁能帮助我了解边界框的尺度不变性和对数空间(两者)的相关性 以及这两个函数如何捕获这两个方面?
问题2。上述 BB尺度不变翻译 与实现 尺度不变对象检测 有何不同(解释如下) ?
我的意思是,在快速R-CNN中,作者指出,以下两种方法可以实现目标检测中的尺度不变性:
首先,蛮力方法,在训练和测试期间,每个图像均以预定的像素大小进行处理。网络必须直接从训练数据中学习尺度不变对象检测
第二种方法是使用图像金字塔。
请随时引用研究论文,以便我阅读以深入了解。
答案 0 :(得分:1)
这些功能dx(P), dy(P), dw(P), dh(P)
的目标是从提议框转换为地面框。它们被建模为来自特征图的合并特征的线性函数,并且包含可学习的参数(权重)。
该论文指出,dx(P), dy(P)
指定了P边界框中心的比例不变平移,请注意,它是他们指定了但没有指定,那么此平移是什么呢?翻译看起来像这样:
要了解什么是尺度不变性,我们可以从为什么需要它开始?因为提案bbox的大小可能不同。 在下面的图片中,带有蝙蝠的人和投掷者的建议bbox的大小不同,在ROI合并后,它们将被表示为固定的相同形状特征向量(FIXED AND SAME SHAPE!)。回归器进行预测时,仅预测值dx(P)
和dy(P)
,而不会区分特征向量来自哪个提案bbox。在将此值应用于输入图像时,由于我们已经拥有了提案bbox(Px, Py, Pw, Ph
)提供的信息,因此可以通过转换来简单地计算输入图像中bbox的中心!(注意这两个提议都是同班人,所以回归者可以是相同的,否则回归者是不同的
至于后面的两个转换:
如果在双方都应用对数变换,则会看到:
dw(P)
和dh(P)
指定日志空间转换!
对于第二个问题,边界框回归是整个检测管道的一部分,仅用于bbox回归。除了bbox回归之外,对象检测还必须处理图像分类,提案生成等。例如,在提案生成期间应用金字塔图像。