定向梯度直方图

时间:2011-04-08 14:07:10

标签: image-processing computer-vision object-detection

我一直在阅读有关对象(人类)检测的HOG描述符的理论。但我对实施有一些疑问,这可能听起来像一个微不足道的细节。

关于包含块的窗口;窗口是否应逐个像素地移动到图像上,窗口在每一步重叠,如下所示:enter image description here

或者应该移动窗口而不会导致任何重叠,如下所示:enter image description here

到目前为止,我看到的插图使用了第二种方法。但是,考虑到检测窗口的大小为64x128,很可能通过在图像上滑动窗口,不能覆盖整个图像。如果图像大小为64x255,则最后127个像素将不检查对象。所以,第一种方法似乎更合理,但是,更多的时间和CPU消耗。

有什么想法吗? 提前谢谢。

编辑:我试着坚持Dalal和Triggs的原始论文。可以在此处找到一篇实现该算法并使用第二种方法的论文:http://www.cs.bilkent.edu.tr/~cansin/projects/cs554-vision/pedestrian-detection/pedestrian-detection-paper.pdf

1 个答案:

答案 0 :(得分:4)

编辑: 对不起 - 我误解了你的问题。 (另外,我提供给错误的问题的答案是错误的 - 我已经调整了下面的上下文。)

您要求使用 HOG描述符进行检测,而不是生成 HOG描述符。

在上面引用的实施文件中,看起来 与检测窗口重叠。窗口大小为64x128,而它们使用32像素的水平步幅和64的垂直步幅。他们还提到他们尝试较小的步幅值,但这导致更高的误报率(在其实现的上下文中)。

最重要的是,他们使用输入图像的3个刻度:1,1 / 2和1/4。他们没有提到检测窗口的任何相应缩放 - 我不确定从检测角度来看会产生什么影响。看来这也会隐式地创建重叠。


原始答案(更正):

观察Dalal和Triggs论文(见6.4节),看起来他们提到i)没有块重叠,以及ii)生成HOG描述符时的半块和四分块重叠。根据他们的结果,听起来更大的重叠会产生更好的检测性能(尽管资源/处理成本更高)。