应用错误收集

我目前正在研究神经网络的反向传播（1个隐藏层）的推论，考虑了输入隐藏层和隐藏输出层之间的softmax之间的S型激活函数。我选了几个博客和网站，但没有一个回答我关于这些方程式推论的问题。

让我们假设以下损失函数

$$ E = \ frac {1} {2}（a_3-Y）** 2 $$。

导数dE / dW2可以写为dE / dW2 =（dE / dZ2）*（dZ2 / dW2）（请参见http://www.cristiandima.com/neural-networks-from-scratch-in-python/）。第二项可以写为dZ2 / dW2 = a2（因为Z2 = a2 * W2 + b2）。然后可以将第一个项（采用S型激活函数）计算为

$$ dE / dZ2 = delta2 =（a3-Y）* d（softmax（Z2））/ dZ2。

但是，所有博客和网站仅显示delta2 =（a3-Y），并且没有解释为什么在术语dE / dW2中softmax的导数为1。

以上这些方程式有什么问题？

预先感谢

反向传播中的softmax-神经网络

0 个答案: