最大合并在视觉中很有用,原因有两个:
通过消除非最大值,它减少了鞋面的计算 层。
它提供了一种翻译不变性。想象一下,级联一个 具有卷积层的最大池化层。有8个方向 其中一个人可以将输入图像转换为单个像素。如果 max-pooling是在2x2区域内完成的,其中3个可能是2个区域 配置将产生完全相同的输出 卷积层。对于3x3窗口的最大池,跳转到 5/8。
由于它为位置提供了额外的稳健性,因此max-pooling是一个 降低中间体维度的“聪明”方式 表示。
我无法理解,8 directions
是什么意思?什么呢?
"如果在2x2区域内完成最大池化,则这8个区域中有3个可能 配置将产生完全相同的输出 卷积层。对于3x3窗口的最大池,跳转到 5/8"
意思?
答案 0 :(得分:0)
有8个方向可以将输入图像转换为单个像素。
他们正在考虑2个水平,2个垂直和4个对角线1像素的移位。这总共得到8个。
如果在2x2区域上进行最大池化,则这8种可能配置中的3种将在卷积层产生完全相同的输出。对于3x3窗口的最大池化,这将跳至5/8。
想象一下,我们在图像的2x2区域中取最大值。图像是预先卷积的,但是对于这种解释的目的并不重要。
无论最大值位于2x2区域的确切位置,图像的3个可能的1像素平移将导致该特定2x2区域中保留最大值。当然,可能会从邻近地区带来更大的价值,但这不是重点。关键是你得到一些翻译不变性。
对于3x3区域,它变得更复杂,因为保持区域内最大值的1像素转换的数量取决于最大值所在区域中的确切位置。他们提到的5个翻译对应于3x3像素块中边缘中间的位置。角落位置将提供3个翻译,而中心位置将提供所有8个。