我目前正在研究神经网络的反向传播(1个隐藏层)的推论,考虑了输入隐藏层和隐藏输出层之间的softmax之间的S型激活函数。我选了几个博客和网站,但没有一个回答我关于这些方程式推论的问题。
让我们假设以下损失函数
$$ E = \ frac {1} {2}(a_3-Y)** 2 $$。
导数dE / dW2可以写为dE / dW2 =(dE / dZ2)*(dZ2 / dW2)(请参见http://www.cristiandima.com/neural-networks-from-scratch-in-python/)。第二项可以写为dZ2 / dW2 = a2(因为Z2 = a2 * W2 + b2)。然后可以将第一个项(采用S型激活函数)计算为
$$ dE / dZ2 = delta2 =(a3-Y)* d(softmax(Z2))/ dZ2。
但是,所有博客和网站仅显示delta2 =(a3-Y),并且没有解释为什么在术语dE / dW2中softmax的导数为1。
以上这些方程式有什么问题?
预先感谢