为什么Relu可以解决消失的梯度?

时间:2019-12-03 13:27:21

标签: sigmoid relu

当涉及到S形时,由于许多0〜1的相乘,所以边缘的第一个边缘很少更新。我了解到这叫做消失梯度。

但是Relu为什么不成问题?我认为relu的第一个边缘也很少更新。

由于derivative的{​​{1}}为0或1,它的乘积不是很多吗?

1 个答案:

答案 0 :(得分:0)

本文对此问题进行了有趣的讨论:http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf

尤其要看一下第318页上的“潜在问题”部分。这似乎恰好是因为导数是0或1,但绝不会只是“逼近”零(如在S型情况下)导致稀疏的表示形式可以帮助培训。