全局池有什么作用?

时间:2017-02-06 14:45:52

标签: image-processing machine-learning deep-learning caffe conv-neural-network

我最近在caffe的Pooling层中找到了“global_pooling”标志,但是在这里的文档中无法找到它(Layer Catalogue) 也不在这里(Pooling doxygen doc)。

与普通的Pool-Layer行为相比,是否有一个简单的前向解释?

4 个答案:

答案 0 :(得分:10)

使用全局池将维度从3D降低到1D。因此,全局池为每个要素图输出1个响应。这可以是您使用的最大值或平均值或任何其他池操作。

它经常在卷积神经网络的后端结束时用于获得与密集层一起工作的形状。因此,不得使用展平。

答案 1 :(得分:2)

卷积可以适用于任何图像输入大小(足够大)。但是,如果最后有一个完全连接的图层,则该图层需要固定的输入尺寸。因此,完整的网络需要固定的图像输入大小。

但是,您可以删除完全连接的图层,只使用卷积图层。您可以在末尾创建一个卷积层,它具有与您有类相同数量的过滤器。但是你想要每个类的一个值来表示该类的概率。因此,您在完整的剩余要素图上应用池过滤器。因此,这种汇集是“全球性的”,因为它始终是必要的。相反,通常的汇集层具有固定的大小(例如2x2或3x3)。

这是一般概念。您还可以在其他库中找到全局池,例如Lasagne。如果您想在文献中有一个很好的参考,我建议您阅读Network In Network

答案 2 :(得分:1)

如果您正在寻找有关caffe标志/参数的信息,最好在'$CAFFE_ROOT/src/caffe/proto/caffe.proto'的评论中查找。
对于e.currentTarget.removeEventListener(e.type, nameFunction); 参数comment says

'global_pooling'

有关caffe图层的详细信息,请参阅this help pages

答案 3 :(得分:1)

当我们应用GP层时,我们从整个要素图中仅获得一个值,其中内核大小为要素图的h×w。 GP图层用于减少三维特征图的空间尺寸。但是,GP层执行更极端的降维类型,其中尺寸为h×w×d的特征图的大小会减小为尺寸为1×1×d。 GP层只需简单地获取所有hw值的平均值,即可将每个h×w特征图简化为一个数字。