我自己一直在阅读神经网络的错误函数。 http://neuralnetworksanddeeplearning.com/chap3.html解释说使用交叉熵函数可以避免减速(即如果预测输出远离目标输出,网络学得更快)。作者表明,连接到输出层的权重将忽略sigmoid prime函数,这会导致减速。
但是后面的重量怎么样呢?通过推导(我在使用二次误差函数时得到相同的推导),我发现S形素项出现在那些权重中。不会导致经济放缓吗? (也许我错误地推导出来了?)
答案 0 :(得分:1)
是的,除了最后一个之外,所有的sigmoid层都会受到学习放缓的影响。我猜您的推导是正确的,实际上Quadratic Error
,Sigmoid + BinaryCrossEntropyLoss
和Softmax + SoftmaxCrossEntropyLoss
共享反向传播公式y_i - y
的形式。请参阅此处有关三种损失的代码:L2Loss,BinaryLoss,SoftmaxLoss