假设我正在使用pytorch进行实施。假设我有一个像RNN一样的模型,它在每个步骤中都有损失:
for step in step_cnts:
output = rnn(input, hidden)
loss = loss + criteria(output, target)
使用loss.backward()
向后移动时,RNN的每一步都会累积梯度吗?
而且这种积累不会导致梯度爆炸吗?
顺便说一句,如果我用loss = loss / step_cnts
平均损失,则梯度将不同于
总和版本?