我正在从头开始编写RNN的实现,尽管读了multiple tutorials,但在编码之前,我还有几件事需要验证from this diagram that I reference below:
L = 0.5 * square(target - output)
是有效的,我只需要目标值和输出就可以为每个时间步进行计算; grad_s(t) * S(t-1)
,对于时间步长t = 1,grad_w(0) = 0
,对于时间步长t = 2,grad_w(1) = 0 + grad_s(1) * S(0)
,依此类推。这些假设是否正确?