标签: pytorch
为什么作者不让它覆盖渐变?有什么特定的原因可以使其积累起来?
答案 0 :(得分:3)
因为如果您在前向通行证中两次使用相同的网络(或相同的权重),则它应该累积而不是覆盖。此外,由于pytorch计算图是由运行定义的,因此进行累加是有意义的。参见https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/9