我正在使用新创建的激活功能在8层(1568-784-512-256-128-64-32-10)全连接深度神经网络上训练MNIST。如下图所示。此功能看起来像有点类似于ReLU,它在" kink"处给出了一个垃圾曲线。
当我用它训练5层,6层和7层全连接神经网络时工作正常。当我在8层全连接神经网络中使用它时会出现问题。它只会在前几个时期学习,然后停止学习(测试损失给出" nan"测试精度下降到9.8%)。为什么会这样?
我的其他配置如下:Dropout = 0.5,权重初始化= Xavier初始化,学习率= 0.1
答案 0 :(得分:2)
我认为这被称为梯度消失问题,通常发生在深层网络中。解决它没有硬性规定。我的建议是重塑您的网络架构