深度神经网络没有学习

时间:2018-04-25 03:58:22

标签: machine-learning neural-network deep-learning artificial-intelligence activation-function

我正在使用新创建的激活功能在8层(1568-784-512-256-128-64-32-10)全连接深度神经网络上训练MNIST。如下图所示。此功能看起来像有点类似于ReLU,它在" kink"处给出了一个垃圾曲线。

当我用它训练5层,6层和7层全连接神经网络时工作正常。当我在8层全连接神经网络中使用它时会出现问题。它只会在前几个时期学习,然后停止学习(测试损失给出" nan"测试精度下降到9.8%)。为什么会这样?

我的其他配置如下:Dropout = 0.5,权重初始化= Xavier初始化,学习率= 0.1

enter image description here

enter image description here

1 个答案:

答案 0 :(得分:2)

我认为这被称为梯度消失问题,通常发生在深层网络中。解决它没有硬性规定。我的建议是重塑您的网络架构

点击此处[Avoiding vanishing gradient in deep neural networks