Question

我有一个神经网络，可以在其中计算输出层的增量，例如：

delta_L = Output(i) - L;

而且效果很好。但是，如果我将其更改为：

delta_L = L - Output(i);

然后它不起作用。（尽管吴安国的课程推荐第二门课程）

为什么？

Answer 1

让我们使用3层nn和2个隐藏层，标准符号nn显示如下：

with和成本函数为训练数据集的总和（或平均）平方损失（用于回归，具有连续值输出）

带有反向传播表达式：

如您所见，delta_L在您的符号中是output[i] - L，假设L=y是您的输出变量的实际值，而a=output[i]是nn预测，这表达式与吴安德（Andrew Ng）的课程中的表达式匹配，有关更多详细信息，请参见this文章。对于分类/交叉熵损失，我们也可以显示相同的结果。