RNN中偏导数的公式

时间:2016-07-03 11:55:21

标签: nlp deep-learning recurrent-neural-network

从隐藏状态$ h_ {j-1} $到$ h_j $的重复计算是: $$ h_j = W f(h_ {j-1})+ W ^ {(hx)} x _ {[j]} $$, 其中W是两个隐藏状态之间的参数矩阵,$W^{(hx)}$是输入向量x和隐藏状态h之间的参数矩阵。 $ h_j $和$ x _ {[j]} $是第j层的隐藏状态和输入向量。

我在Recurrent Neural Network中看到了一个粒子衍生物配方如下:

$$ \ frac {\ partial {h_j}} {h_ {j-1}} = W ^ T diag(f'(h_ {j-1}))$$

我认为它应该是$W diag(f'(h_{j-1}))$而不是$W^T diag(f'(h_{j-1}))$。我们为什么要使用W的转置?

0 个答案:

没有答案