PyTorch的GRU文档(https://pytorch.org/docs/stable/nn.html#gru)说,变量weight_ih_l[k]
的形状为3*hidden_size x input_size
,与层无关。
但是,当我打印出每个砝码的形状时
gru = nn.GRU(...)
for name, p in gru.named_parameters():
print(name,p.shape)
带有hidden_size=2
,input_size=1
,num_layers=3
和bidirectional=True
,
我只为(6,1)
得到weight_ih_l0
,而得到(6,4)
和weight_ih_l1
的{{1}},
似乎表明l2
的形状是weight_ih
的{{1}}。
这是文档错误吗?还是关于GRU的我不了解的东西?