image-processing - 关于max-pooling？

最大合并在视觉中很有用，原因有两个：

通过消除非最大值，它减少了鞋面的计算   层。

它提供了一种翻译不变性。想象一下，级联一个   具有卷积层的最大池化层。有8个方向   其中一个人可以将输入图像转换为单个像素。如果   max-pooling是在2x2区域内完成的，其中3个可能是2个区域   配置将产生完全相同的输出   卷积层。对于3x3窗口的最大池，跳转到   5/8。

由于它为位置提供了额外的稳健性，因此max-pooling是一个   降低中间体维度的“聪明”方式   表示。

我无法理解，8 directions是什么意思？什么呢？

＆＃34;如果在2x2区域内完成最大池化，则这8个区域中有3个可能配置将产生完全相同的输出卷积层。对于3x3窗口的最大池，跳转到 5/8＆＃34;

意思？

有8个方向可以将输入图像转换为单个像素。

他们正在考虑2个水平，2个垂直和4个对角线1像素的移位。这总共得到8个。

如果在2x2区域上进行最大池化，则这8种可能配置中的3种将在卷积层产生完全相同的输出。对于3x3窗口的最大池化，这将跳至5/8。

想象一下，我们在图像的2x2区域中取最大值。图像是预先卷积的，但是对于这种解释的目的并不重要。

无论最大值位于2x2区域的确切位置，图像的3个可能的1像素平移将导致该特定2x2区域中保留最大值。当然，可能会从邻近地区带来更大的价值，但这不是重点。关键是你得到一些翻译不变性。

对于3x3区域，它变得更复杂，因为保持区域内最大值的1像素转换的数量取决于最大值所在区域中的确切位置。他们提到的5个翻译对应于3x3像素块中边缘中间的位置。角落位置将提供3个翻译，而中心位置将提供所有8个。

关于max-pooling？

1 个答案: