应用错误收集

为什么在对象检测中使用带卷积神经网络的滑动窗口？

时间：2016-03-17 11:58:14

标签： machine-learning computer-vision neural-network object-detection conv-neural-network

我读到CNN（包含卷积和最大池化层）是移位不变的，但是大多数物体检测方法使用具有非最大抑制的滑动窗口检测器。在进行物体检测时是否有必要使用带CNN的滑动窗口？

基本上，不是在包含所需对象的50x50小图片上训练网络，为什么不训练对象存在于某处的整个图像？我所能想到的只是实际/性能原因（向前传递较小的补丁而不是整个图像），但是还有一个我忽略的理论解释吗？

1 个答案:

答案 0 :(得分：6)

内部，CNN 做滑动窗口。就2D图像而言的卷积仅仅是以滑动窗口方式应用的线性滤波器。这是完全相同的操作的简单，数学表达，这有助于我们进行整洁的优化。另一方面，最大池化有助于我们在小班次/噪音方面保持稳健。因此，有效地将图像输送到网络正在使用（许多！）滑动窗口。我们可以传递大图像而不是小图像吗？当然，但你会得到非常大的张量（只计算你需要多少个数字，这是巨大的），你会得到非常复杂的优化问题。如今我们在数百万维空间中进行优化。处理整个图像可能会导致尺寸（甚至更大）的尺寸。优化复杂度随着维度的增长而呈指数增长，因此最终会得到极慢的方法（不是计算本身 - 而是收敛）。