pytorch-为什么“累积” .gradient的默认模式?

时间:2018-07-30 04:02:16

标签: pytorch

为什么作者不让它覆盖渐变?有什么特定的原因可以使其积累起来?

1 个答案:

答案 0 :(得分:3)

因为如果您在前向通行证中两次使用相同的网络(或相同的权重),则它应该累积而不是覆盖。此外,由于pytorch计算图是由运行定义的,因此进行累加是有意义的。参见https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/9