pytorch中1个LSTM与num_layers = 2和2个LSTM之间的差异

时间:2018-03-11 19:53:30

标签: deep-learning lstm recurrent-neural-network pytorch

我是深度学习的新手,目前正致力于使用LSTM进行语言建模。我正在查看pytorch文档,并对此感到困惑。

如果我创建

nn.LSTM(input_size, hidden_size, num_layers) 

其中hidden_​​size = 4和num_layers = 2,我想我会有一个类似的架构:

op0    op1 ....
LSTM -> LSTM -> h3
LSTM -> LSTM -> h2
LSTM -> LSTM -> h1
LSTM -> LSTM -> h0
x0     x1 .....

如果我做的话

nn.LSTM(input_size, hidden_size, 1)
nn.LSTM(input_size, hidden_size, 1)

我认为网络架构看起来与上面完全一样。我错了吗?如果是的话,这两者之间有什么区别?

1 个答案:

答案 0 :(得分:4)

多层LSTM更为人所知的是堆叠式LSTM,其中多层LSTM堆叠在一起。

您的理解是正确的。堆叠LSTM的以下两个定义是相同的。

nn.LSTM(input_size, hidden_size, 2)

nn.Sequential(OrderedDict([
    ('LSTM1', nn.LSTM(input_size, hidden_size, 1),
    ('LSTM2', nn.LSTM(hidden_size, hidden_size, 1)
]))

这里,输入被馈送到LSTM的最低层,然后最低层的输出被转发到下一层,依此类推。请注意,最低LSTM层的输出大小和LSTM层的其余输入大小为hidden_size

但是,您可能已经看到人们通过以下方式定义堆叠LSTM:

rnns = nn.ModuleList()
for i in range(nlayers):
    input_size = input_size if i == 0 else hidden_size
    rnns.append(nn.LSTM(input_size, hidden_size, 1))

人们有时使用上述方法的原因是,如果使用前两种方法创建堆叠LSTM,则无法获得每个单独层的隐藏状态。查看PyTorch中LSTM返回的内容。

因此,如果您想要具有中间层的隐藏状态,则必须将每个单独的LSTM层声明为单个LSTM并运行循环以模拟多层LSTM操作。例如:

outputs = []
for i in range(nlayers):
    if i != 0:
        sent_variable = F.dropout(sent_variable, p=0.2, training=True)
    output, hidden = rnns[i](sent_variable)
    outputs.append(output)
    sent_variable = output

最后,outputs将包含每个LSTM图层的所有隐藏状态。