现在有人知道现有的神经网络结构中层之间是否存在任何规范化或缩放?
缩放输入很常见,我熟悉ReLU爆炸。我看到的大多数模型都指出了一小部分值,如-2到+2,但我不知道如何在层与层之间保持这一点。不管激活功能如何,第二层输出都是数十,那么第三层是数百,最终输出是数万。在最坏的情况下,该层返回NaN。可以通过缩放或交替使用ReLU / sigmoid进行解决,但我想知道这是否常见?
答案 0 :(得分:-1)
几乎每个网络都使用批量标准化,正是如此。论文可以在这里找到:(https://arxiv.org/abs/1502.03167)。本质上,它在被送入下一层之前将值标准化为0均值和单位方差。另一项工作是自我归一化线性单位(selu),它在某种意义上自动完成,无需任何缩放。论文可以在这里找到:(https://arxiv.org/abs/1706.02515)。