我读到CNN(包含卷积和最大池化层)是移位不变的,但是大多数物体检测方法使用具有非最大抑制的滑动窗口检测器。在进行物体检测时是否有必要使用带CNN的滑动窗口?
基本上,不是在包含所需对象的50x50小图片上训练网络,为什么不训练对象存在于某处的整个图像?我所能想到的只是实际/性能原因(向前传递较小的补丁而不是整个图像),但是还有一个我忽略的理论解释吗?
答案 0 :(得分:6)
内部,CNN 做滑动窗口。就2D图像而言的卷积仅仅是以滑动窗口方式应用的线性滤波器。这是完全相同的操作的简单,数学表达,这有助于我们进行整洁的优化。另一方面,最大池化有助于我们在小班次/噪音方面保持稳健。因此,有效地将图像输送到网络正在使用(许多!)滑动窗口。我们可以传递大图像而不是小图像吗?当然,但你会得到非常大的张量(只计算你需要多少个数字,这是巨大的),你会得到非常复杂的优化问题。如今我们在数百万维空间中进行优化。处理整个图像可能会导致尺寸(甚至更大)的尺寸。优化复杂度随着维度的增长而呈指数增长,因此最终会得到极慢的方法(不是计算本身 - 而是收敛)。