当涉及到S形时,由于许多0〜1的相乘,所以边缘的第一个边缘很少更新。我了解到这叫做消失梯度。
但是Relu为什么不成问题?我认为relu
的第一个边缘也很少更新。
由于derivative
的{{1}}为0或1,它的乘积不是很多吗?
答案 0 :(得分:0)
本文对此问题进行了有趣的讨论:http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf
尤其要看一下第318页上的“潜在问题”部分。这似乎恰好是因为导数是0或1,但绝不会只是“逼近”零(如在S型情况下)导致稀疏的表示形式可以帮助培训。