我正在观看斯坦福大学CS 231n的在线讲座。我有一个问题,也许我因某种原因感到困惑。链接是: the video
转到35:46并在向后功能中,dx的公式为:
dx = self.y * dz.
我没有得到
z = x*y.
所以
dx = dz/y
有人可以解释一下为什么会出现这种差异吗?
答案 0 :(得分:1)
这只是他代码中的一个奇怪的符号( dz,dx,dy 没有按照他们通常的意义使用)。变量 dz 这里表示成本函数 L (完整神经网络)相对于 z 的导数,而< x 和 y 的强> L 表示 dx 和 dy 。关于 x 的 z , y ,只需 self.y 。考虑到这些符号,其余部分遵循链式规则。