标签: neural-network backpropagation
我正在实施this paper中描述的NN压缩方法, 它们显示用于计算重量更新的反向传播方程式(第3页):
然后有一个我很难理解的陈述:
表达式h'(Wx + b)包含向下流动的渐变,即 主要取决于成本函数和网络参数。
如果我理解正确,这个表达式只是Wx + b点激活函数的导数,其中x是下层激活的向量,因此它与向下流动的梯度无关。
这个陈述在他们想要做的事情(降低计算精度)的背景下很重要,所以我想理解这个推理。