关于max-pooling?

时间:2017-04-04 07:29:32

标签: image-processing deep-learning conv-neural-network max-pooling

最大合并在视觉中很有用,原因有两个:

  

通过消除非最大值,它减少了鞋面的计算   层。

     

它提供了一种翻译不变性。想象一下,级联一个   具有卷积层的最大池化层。有8个方向   其中一个人可以将输入图像转换为单个像素。如果   max-pooling是在2x2区域内完成的,其中3个可能是2个区域   配置将产生完全相同的输出   卷积层。对于3x3窗口的最大池,跳转到   5/8。

     

由于它为位置提供了额外的稳健性,因此max-pooling是一个   降低中间体维度的“聪明”方式   表示。

我无法理解,8 directions是什么意思?什么呢?

  

"如果在2x2区域内完成最大池化,则这8个区域中有3个可能   配置将产生完全相同的输出   卷积层。对于3x3窗口的最大池,跳转到   5/8"

意思?

1 个答案:

答案 0 :(得分:0)

  

有8个方向可以将输入图像转换为单个像素。

他们正在考虑2个水平,2个垂直和4个对角线1像素的移位。这总共得到8个。

  

如果在2x2区域上进行最大池化,则这8种可能配置中的3种将在卷积层产生完全相同的输出。对于3x3窗口的最大池化,这将跳至5/8。

想象一下,我们在图像的2x2区域中取最大值。图像是预先卷积的,但是对于这种解释的目的并不重要。

无论最大值位于2x2区域的确切位置,图像的3个可能的1像素平移将导致该特定2x2区域中保留最大值。当然,可能会从邻近地区带来更大的价值,但这不是重点。关键是你得到一些翻译不变性。

对于3x3区域,它变得更复杂,因为保持区域内最大值的1像素转换的数量取决于最大值所在区域中的确切位置。他们提到的5个翻译对应于3x3像素块中边缘中间的位置。角落位置将提供3个翻译,而中心位置将提供所有8个。