如果我们在神经网络中使用太多隐藏层,是否有任何问题?任何人都可以简单地描述如果我们有太多隐藏层可能会出现什么问题。
答案 0 :(得分:4)
最重要的问题是所谓的“消失梯度现象”,很容易验证(理论上和实际上)不可能有效地训练一个以上的隐藏层(假设传统的反向传播,没有深度学习/ neocognitron /卷积网络)随着计算的梯度/导数越来越平滑。每个附加层都会丢失错误的“责任”。
过度拟合(因为@Floris错误陈述)不是这里的主要问题,因为同样的问题来自隐藏单位的数量(事实上它会发生更常见的是,通过增加一个隐藏层中的单元数而不是增加隐藏层的数量。)