当我想到一个最大池化层时,我会想到它可以检测出其接受域中任何位置但与位置无关的特征。
似乎最大池化的这种空间不变性应该意味着它会丢失有关原始图像中特征的确切位置的信息。
那么,具有多个最大池化层的CNN如何准确预测图像中对象的边界框?快速的Google展示了许多CNN的示例,建议使用最大池来解决边界框回归问题。
感谢您的帮助。
答案 0 :(得分:1)
因为您认为它将丢失有关确切位置的信息是错误的。最大池化不会稀释最大像素的位置-而是将其视为缩小尺寸的一种方式。最大池化只是减少问题维数的一种方法,以便使问题适合设备内存。一个不错的附带属性是,它可以合并特征图中最强的活动。
在bbox预测的情况下,它也减少了为bbox提议的区域数量。稍后在非最大压缩步骤中,它将杀死建议的所有多余bbox位置。