在本文中试图理解HOG特征的大小时,我很困惑。Mid-level Elements for Object Detection.。在Dalal的工作中,一个64 * 128像素的窗口用4 * 9 * 7 * 15表示= 3780维HOG特征。但在这些论文中,64 * 64像素窗口由6 * 6 * 31 HOG特征表示。我已阅读其中引用的参考文献,但仍然不了解它是如何计算的。可以有人帮我理解每64 * 64窗口提取6 * 6 * 31 HOG特征的想法吗?本文中的细胞化,块化和跨步是什么?
答案 0 :(得分:1)
您需要知道有两种不同的HOG功能。 Dalal建议使用原始图像(图像被分成块,块被分成单元格,正如您在问题中所解释的那样)。第二个是UoCTTI HoG功能。
解释你在问什么,让我先解释数字31.这是本文描述的UoCTTI Hog特征的维度(PF Felzenszwalb,RB Grishick,D。McAllester和D. Ramanan。对象使用有区别训练的部分模型进行检测.PAMI,2009)。在本文中,他们使用PCA将尺寸从36减小到13,然后他们执行不同类型的增强来添加其余的(18)。 6x6是将图像划分为单元格。