我正在学习http://neuralnetworksanddeeplearning.com/chap3.html。
它说交叉熵成本函数可以加速网络,因为δ'(z)在最后一层被取消。
最后一层L的偏导数:
∂(C)/∂(w)= a L-1 (a L -y)。
没有δ'(z)。
但是我想知道交叉熵是否会加速隐藏层,所以我计算了L-1层的偏导数:
∂(C)/∂(w)
=(a L -y)* w L * a L-1 (1-a L-1 < / sup>)* a L-2
=(a L -y)* w L *δ'(z L-1 )* a L- 2
似乎它没有加速L-1层,因为δ'(x)仍然存在。我可以接近零使偏导数接近于零,并使学习缓慢。
有人能告诉我错误的观点吗?感谢。