我一直在遵循本指南(http://neuralnetworksanddeeplearning.com/chap2.html),但遇到了使我感到困惑的问题。
因此,作者指出,为了应用反向传播,我们需要对成本函数做出两个假设。第一个让我感到困惑:
我们需要的第一个假设是成本函数可以写成 作为平均C =(1 / n)∑_x C_x相对于单个成本函数C_x 培训示例,x
...单个培训示例的成本为C_x =(1/2)‖y−a ^L‖^ 2
之所以需要此假设,是因为反向传播 实际上,我们要做的是计算偏导数∂Cx/∂w和 单个训练示例为Cx /∂b。然后我们通过以下方式恢复C /∂w和∂C/ byb 平均训练示例
所以我理解为什么成本函数可以是C_x(单个训练样本的成本)的平均值。 这对我来说很有意义,但是令我感到困惑的部分是,他说反向传播只能让您为单个训练示例计算偏导数。有人知道为什么会这样吗?
以下陈述也使我感到困惑,他说 然后,我们通过对训练示例求平均来恢复C /∂w和∂C/∂b 他如何通过对训练示例进行平均来找到权重和偏差的偏导数?