Question

我正在处理不同长度的序列。但是我只想根据序列末尾计算出的输出对它们进行分级。

按顺序对样本进行排序，以使它们的长度减小并且被零填充。对于5个1D样本，它看起来像这样（忽略可见性的宽度尺寸）：

array([[5, 7, 7, 4, 5, 8, 6, 9, 7, 9],
       [6, 4, 2, 2, 6, 5, 4, 2, 2, 0],
       [4, 6, 2, 4, 5, 1, 3, 1, 0, 0],
       [8, 8, 3, 7, 7, 7, 9, 0, 0, 0],
       [3, 2, 7, 5, 7, 0, 0, 0, 0, 0]])

对于LSTM，我使用的是nn.utils.rnn.pack_padded_sequence，其序列长度分别为：

x = nn.utils.rnn.pack_padded_sequence(x, [10, 9, 8, 7, 5], batch_first=True)

在Model构造函数中初始化LSTM：

self.lstm = nn.LSTM(width, n_hidden, 2)

然后我调用LSTM并解压缩值：

x, _ = self.lstm(x)
x = nn.utils.rnn.pad_packed_sequence(x1, batch_first=True)

然后我要应用一个完全连接的层和一个softmax

x = x.contiguous()
x = x.view(-1, n_hidden)
x = self.linear(x)
x = x.reshape(batch_size, n_labels, 10) # 10 is the sample height
return F.softmax(x, dim=1)

这给了我一个batch x n_labels x height形状（5x12x10）的输出。

对于每个样本，我只想对最后一个输出batch x n_labels（5 * 12）使用一个分数。我的问题是我该如何实现？

一个想法是在模型返回的最后一个隐藏层上应用tanh，但我不确定这是否会产生相同的结果。是否可以有效地提取在序列末尾计算出的输出，例如使用与pack_padded_sequence相同的长度序列？

Answer 1

Neaabfi回答hidden[-1]是正确的。为了更具体地说明您的问题，如docs写道：

output, (h_n, c_n) = self.lstm(x_pack) # batch_first = True

# h_n is a vector of shape (num_layers * num_directions, batch, hidden_size)

在您的情况下，您有2个LSTM层的堆栈，它们仅具有forward方向，然后：

h_n shape is (num_layers, batch, hidden_size)

可能您更喜欢最后一层的隐藏状态h_n，然后**这是您应该做的：

output, (h_n, c_n) = self.lstm(x_pack)
h = h_n[-1] # h of shape (batch, hidden_size)
y = self.linear(h)

Here是将任何循环层LSTM，RNN或GRU包装到DynamicRNN中的代码。 DynamicRNN可以对各种长度的序列执行循环计算，而无需关心长度的顺序。

Answer 2

您可以如下访问最后一个隐藏层：

output, (hidden, cell) = self.lstm(x_pack)
y = self.linear(hidden[-1])

Pytorch LSTM Grad仅在最后一个输出上

2 个答案: