从隐藏状态$ h_ {j-1} $到$ h_j $的重复计算是:
$$ h_j = W f(h_ {j-1})+ W ^ {(hx)} x _ {[j]} $$,
其中W
是两个隐藏状态之间的参数矩阵,$W^{(hx)}$
是输入向量x
和隐藏状态h
之间的参数矩阵。 $ h_j $和$ x _ {[j]} $是第j层的隐藏状态和输入向量。
我在Recurrent Neural Network中看到了一个粒子衍生物配方如下:
$$ \ frac {\ partial {h_j}} {h_ {j-1}} = W ^ T diag(f'(h_ {j-1}))$$
我认为它应该是$W diag(f'(h_{j-1}))$
而不是$W^T diag(f'(h_{j-1}))$
。我们为什么要使用W
的转置?