接收字段大小与对象大小

时间:2017-02-21 13:38:14

标签: machine-learning computer-vision deep-learning conv-neural-network

我有一个关于CNN的感受野与它应该检测的物体大小之间的关系的问题。 可以说我的物体大小为16x16像素。那么感受野至少应该是16x16吗?还是应该更大?如果接受性领域是大的,那么在这种情况下可以说是100x100吗?

我知道这是一个很难的问题,但也许任何人都有一些关于感受野与对象大小有多大关系的经验。

谢谢

2 个答案:

答案 0 :(得分:1)

感知字段确定在做出决定时考虑的像素数量。如果你使用对象的一个​​子集来确定它是否是一个特定的子集,那就像是在裁剪并要求人类确定它是什么对象,这很难做到。

通常,考虑周围的信息以做出明智的决定是有帮助的。

使用过多周围信息的唯一问题是网络可能会根据与对象本身无关的内容做出决策,因为它在训练集中是相关的,而在现实生活中则不相关。例如。汽车分类。每辆奥迪车都有红色背景,没有其他车型。因此,如果您将整个图像用作感受野,它可能会根据背景而不是汽车特征对奥迪进行分类。

编辑您的澄清:

我做了类似指纹的事情。我建议你看一下二进制图像分割,并为每个对象使用6x6区域或其他东西,这样损失函数就会更平滑。这对我的情况最有效。

这是一个纯粹的理论问题,因为无论如何你需要足够的深度来存档好的结果,并且感受器区域将比对象更大。此外,因为对象可以改变其大小,所以没有固定的接收大小适用于场景中的所有对象。如果它有助于限制像素的接收尺寸,那么它仍然是一个有趣的实验。我不这么认为。

答案 1 :(得分:0)

感知字段的最佳相对大小取决于网络的整体架构。但一般来说,您可能应该将过滤器接收区域小于要检测的对象的大小。假设您的图层具有足够数量的卷积滤镜,则需要调整感知字段的大小,以便过滤器可以检测对象的要素(边缘,颜色,纹理等)。然后,CNN的后续层将组合这些功能以检测聚合对象。

例如,请参阅here。标题为“示例过滤器...”的数字显示了学习过的卷积滤波器,其具有11x11像素的感知场,而待检测物体(在这种情况下是汽车)跨越数百个像素。