我正在阅读本文-https://arxiv.org/pdf/1609.04112.pdf,并试图理解作者第一个问题的答案-
为什么非线性激活 功能在所有中间层的滤波器输出中必不可少?
到目前为止,他的解释似乎是可以理解的-
我们可以将RECOS模型进一步推广到翻译后的单位领域
其中,μ是x的平均值。
我很困惑为什么这被认为是“概括”,但是本文继续解释了为什么这样做。
对于视力问题, x 的元素x n ,n = 1 ... N表示N个像素 值是输入图像的值,μ是所有像素的平均值。如果输入 是完整的图像,其平均值是对图像没有影响的全局平均值 理解。
可以在处理之前将其删除。因此,我们将μ= 0。
但是,如果输入图像很大,我们通常将其划分为较小的补丁,并并行处理所有补丁。在这种情况下,每个面片的均值是局部均值。不应将其删除,因为本地方法的集成可提供完整图像的粗略视图。这对应于等式中的一般情况。 (5)。
我完全理解尝试使用均值表示小补丁。
是否意味着将信号/矢量移位视为一种概括? 如果是这样,有人可以请我指出支持该主张的理论吗?我自己似乎找不到合适的链接。
还是在这里只是用来说明作者的示例和以后的解释?
或者我在这里缺少明显的东西吗?
答案 0 :(得分:0)
您是否听说过概率分布(或一般特征)的标准化?您移动其均值,使其类似于高斯(正态)分布。看看Central limit theorem和论文A review of mean-shift algorithms for clustering