人工智能中的某些术语使我感到困惑。反向传播中使用的导数函数是激活函数的导数还是损失函数的导数?
这些术语令人困惑:行为的衍生。函数,偏导数wrt。损失函数?
我还是不正确。
答案 0 :(得分:1)
优化模型时,可以定义损失函数。这通常代表某些训练数据的错误。
通常使用基于梯度的优化来最小化此错误。通常,随机梯度下降(SGD)和相关方法(Adam,Adagrad等)。
损失函数的梯度是一个由损失相对于模型中每个权重的偏导数组成的向量。
在每次迭代中,权重都会相对于梯度的方向进行更新(请记住,我们正在将其最小化)。
我想您可能会感到困惑是因为由于链式规则,在计算损失函数的梯度时,您需要区分激活函数。但是请记住,这是由于连锁规则所致。