我正在研究HOG描述符,除了检测窗口的融合之外,我对大部分内容做了很多工作。
到目前为止我所做的是;我建立了图像的尺度空间金字塔,并且对于每个尺度上的每个图像,我移动检测窗口(64x128)并检测人类。在每个图像中,一个人被多个窗口检测到。
所以问题是如何将所有这些窗口(假设一个人)融合到一个窗口中。 Dalal建议人们应该使用强大的mod检测算法,例如均值漂移。但是,我有多个尺度......为了做到这一点,我应该首先估计在较低级别的尺度空间中找到的检测窗口的真实位置吗?
感谢任何帮助。 提前谢谢。
答案 0 :(得分:1)
我的解释是,平均转变会让你有效地提出你的建议。
基本上,您首先根据探测器输出的强度估算最粗尺度的人的位置的概率分布。这为您提供了强大的模式估计。
然后,您可以使用围绕最大值或模式的更精细的比例进行迭代精炼。
这个想法与金字塔LK跟踪中使用的想法非常相似。您也可以进行整体处理和/或粒子滤波。