为什么RNN需要两个偏置矢量?

时间:2017-07-10 06:32:55

标签: pytorch

pytorch RNN implementation中,有两个偏见b_ihb_hh。 为什么是这样?它与使用一个偏差有什么不同?如果有,怎么样?它会影响性能或效率吗?

2 个答案:

答案 0 :(得分:1)

RNN中Pytorch Document的公式是自我解释的。这是等式中的b_ihb_hh

rnn

您可能认为b_ih是输入的偏见(与w_ih配对,输入的权重)和b_hh是隐藏的偏见(与w_hh配对,权重隐藏)

答案 1 :(得分:0)

实际上,之前(已接受)的答案是错误的。仅由于与 CuDNN 兼容,才需要第二个偏置参数。查看相同的code documentation

Country     Values  Address
USA         1       AnyAddress
USA         2       AnyAddress
Brazil      1       AnyAddress
UK          3       AnyAddress
Australia   0       AnyAddress
Australia   0       AnyAddress