让我们举个例子

Question

我试图复制How to use packing for variable-length sequence inputs for rnn，但我想我首先需要了解为什么我们需要“打包”序列。

我了解为什么我们需要“填充”它们，但为什么必须“包装”（通过pack_padded_sequence）？

任何高级解释将不胜感激！

Answer 1

我也偶然发现了这个问题，下面是我所发现的。

训练RNN（LSTM或GRU或vanilla-RNN）时，很难对可变长度序列进行批处理。例如：如果大小为8的批量序列的长度为[4,6,8,5,4,3,7,8]，则将填充所有序列，这将产生8个长度为8的序列。最终进行64次计算（8x8），但是您只需要进行45次计算。此外，如果您想做一些像使用双向RNN的事情，那么仅通过填充就很难进行批处理计算，并且最终可能会执行比所需的更多的计算。

相反，pytorch允许我们打包序列，内部打包的序列是两个列表的元组。一个包含序列的元素。元素按时间步长交错（请参见下面的示例），而其他元素则包含每个步骤的大小批量大小。这有助于恢复实际序列，并告诉RNN每个时间步的批量大小是多少。 @Aerin指出了这一点。可以将其传递给RNN，并将在内部优化计算。

我可能在某些时候不清楚，所以请告诉我，我可以添加更多的解释。

 a = [torch.tensor([1,2,3]), torch.tensor([3,4])]
 b = torch.nn.utils.rnn.pad_sequence(a, batch_first=True)
 >>>>
 tensor([[ 1,  2,  3],
    [ 3,  4,  0]])
 torch.nn.utils.rnn.pack_padded_sequence(b, batch_first=True, lengths=[3,2]
 >>>>PackedSequence(data=tensor([ 1,  3,  2,  4,  3]), batch_sizes=tensor([ 2,  2,  1]))

Answer 2

除了对Umang的回答外，我发现这一点很重要。

返回的元组2818,moon, 2819,shoes, 2820,56-, 2821,33, 2822,Lamed, 2823,Wifes, 2824,Brichas,中的第一项是包含打包序列的数据（张量）-张量。第二项是整数张量，其中包含每个序列步骤中有关批次大小的信息。

在这里重要的是第二项（批大小）表示批中每个序列步骤的元素数量，而不是传递给pack_padded_sequence的不同序列长度。

例如，给定数据pack_padded_sequence和abc ：class：x将包含数据PackedSequence与 axbc。

Answer 3

以上答案很好地解决了问题为什么。我只想添加一个示例，以更好地了解pack_padded_sequence的使用。

让我们举个例子

注意：pack_padded_sequence需要在批次中排序的序列（以序列长度的降序排列）。在以下示例中，已经对序列批次进行了排序，以减少混乱。访问this gist link以获得完整的实现。

首先，我们创建一批2个序列，它们的序列长度不同，如下所示。我们总共有7个元素。

每个序列的嵌入大小为2。
第一个序列的长度为：5
第二个序列的长度为：2

import torch 

seq_batch = [torch.tensor([[1, 1],
                           [2, 2],
                           [3, 3],
                           [4, 4],
                           [5, 5]]),
             torch.tensor([[10, 10],
                           [20, 20]])]

seq_lens = [5, 2]

我们填充seq_batch以获得长度等于5（批次中的最大长度）的序列批次。现在，新批次总共有10个元素。

# pad the seq_batch
padded_seq_batch = torch.nn.utils.rnn.pad_sequence(seq_batch, batch_first=True)
"""
>>>padded_seq_batch
tensor([[[ 1,  1],
         [ 2,  2],
         [ 3,  3],
         [ 4,  4],
         [ 5,  5]],

        [[10, 10],
         [20, 20],
         [ 0,  0],
         [ 0,  0],
         [ 0,  0]]])
"""

然后，我们打包padded_seq_batch。它返回两个张量的元组：

第一个是包含序列批中所有元素的数据。
第二个是batch_sizes，它将通过步骤说明元素之间的相互关系。

# pack the padded_seq_batch
packed_seq_batch = torch.nn.utils.rnn.pack_padded_sequence(padded_seq_batch, lengths=seq_lens, batch_first=True)
"""
>>> packed_seq_batch
PackedSequence(
   data=tensor([[ 1,  1],
                [10, 10],
                [ 2,  2],
                [20, 20],
                [ 3,  3],
                [ 4,  4],
                [ 5,  5]]), 
   batch_sizes=tensor([2, 2, 1, 1, 1]))
"""

现在，我们将元组packed_seq_batch传递到Pytorch中的递归模块，例如RNN，LSTM。这仅需要递归模块中的5 + 2=7计算。

lstm = nn.LSTM(input_size=2, hidden_size=3, batch_first=True)
output, (hn, cn) = lstm(packed_seq_batch.float()) # pass float tensor instead long tensor.
"""
>>> output # PackedSequence
PackedSequence(data=tensor(
        [[-3.6256e-02,  1.5403e-01,  1.6556e-02],
         [-6.3486e-05,  4.0227e-03,  1.2513e-01],
         [-5.3134e-02,  1.6058e-01,  2.0192e-01],
         [-4.3123e-05,  2.3017e-05,  1.4112e-01],
         [-5.9372e-02,  1.0934e-01,  4.1991e-01],
         [-6.0768e-02,  7.0689e-02,  5.9374e-01],
         [-6.0125e-02,  4.6476e-02,  7.1243e-01]], grad_fn=<CatBackward>), batch_sizes=tensor([2, 2, 1, 1, 1]))

>>>hn
tensor([[[-6.0125e-02,  4.6476e-02,  7.1243e-01],
         [-4.3123e-05,  2.3017e-05,  1.4112e-01]]], grad_fn=<StackBackward>),
>>>cn
tensor([[[-1.8826e-01,  5.8109e-02,  1.2209e+00],
         [-2.2475e-04,  2.3041e-05,  1.4254e-01]]], grad_fn=<StackBackward>)))
"""

我们需要将output转换回填充的输出批次：

padded_output, output_lens = torch.nn.utils.rnn.pad_packed_sequence(output, batch_first=True, total_length=5)
"""
>>> padded_output
tensor([[[-3.6256e-02,  1.5403e-01,  1.6556e-02],
         [-5.3134e-02,  1.6058e-01,  2.0192e-01],
         [-5.9372e-02,  1.0934e-01,  4.1991e-01],
         [-6.0768e-02,  7.0689e-02,  5.9374e-01],
         [-6.0125e-02,  4.6476e-02,  7.1243e-01]],

        [[-6.3486e-05,  4.0227e-03,  1.2513e-01],
         [-4.3123e-05,  2.3017e-05,  1.4112e-01],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00]]],
       grad_fn=<TransposeBackward0>)

>>> output_lens
tensor([5, 2])
"""

将此工作与标准方法进行比较

以标准方式，我们只需要将padded_seq_batch传递给lstm模块。但是，它需要10次计算。它涉及对填充元素的更多计算，这些计算将计算效率低下。
请注意，这不会导致不准确表示，但是需要更多的逻辑来提取正确的表示。
- 对于仅具有向前方向的LSTM（或任何递归模块），如果我们想提取最后一步的隐藏矢量作为序列的表示形式，则必须从第T个步骤中选择隐藏矢量，其中T是输入的长度。拿起最后一个表示将是不正确的。请注意，批次中的不同输入的T将会不同。
- 对于双向LSTM（或任何递归模块），这更加麻烦，因为一个人必须维护两个RNN模块，一个在输入的开头填充，而另一个在输入的末尾填充。输入，最后如上所述提取和连接隐藏向量。

让我们来看看区别：

# The standard approach: using padding batch for recurrent modules
output, (hn, cn) = lstm(padded_seq_batch.float())
"""
>>> output
 tensor([[[-3.6256e-02, 1.5403e-01, 1.6556e-02],
          [-5.3134e-02, 1.6058e-01, 2.0192e-01],
          [-5.9372e-02, 1.0934e-01, 4.1991e-01],
          [-6.0768e-02, 7.0689e-02, 5.9374e-01],
          [-6.0125e-02, 4.6476e-02, 7.1243e-01]],

         [[-6.3486e-05, 4.0227e-03, 1.2513e-01],
          [-4.3123e-05, 2.3017e-05, 1.4112e-01],
          [-4.1217e-02, 1.0726e-01, -1.2697e-01],
          [-7.7770e-02, 1.5477e-01, -2.2911e-01],
          [-9.9957e-02, 1.7440e-01, -2.7972e-01]]],
        grad_fn= < TransposeBackward0 >)

>>> hn
tensor([[[-0.0601, 0.0465, 0.7124],
         [-0.1000, 0.1744, -0.2797]]], grad_fn= < StackBackward >),

>>> cn
tensor([[[-0.1883, 0.0581, 1.2209],
         [-0.2531, 0.3600, -0.4141]]], grad_fn= < StackBackward >))
"""

以上结果表明hn，cn在两种方式上是不同的，而output在两种方式下会导致填充元素的值不同。

Answer 4

以下一些视觉解释 ¹可能有助于为pack_padded_sequence()

的功能发展出更好的直觉

假设我们总共有6个序列（长度可变）。您也可以将这个数字6视为batch_size超参数。

现在，我们想将这些序列传递给一些递归神经网络体系结构。为此，我们必须填充批次中的所有序列（通常用0填充到批次中的最大序列长度（max(sequence_lengths)），下图为{{1 }}。

因此，数据准备工作应该现在完成，对吗？并非如此。因为仍然存在一个紧迫的问题，主要是与实际需要的计算相比，我们必须要做多少计算。

为了便于理解，我们还假设将上述形状为9的{{1}}与形状为padded_batch_of_sequences的权重矩阵(6, 9)进行矩阵乘法。

因此，我们将不得不执行 W乘法和 (9, 3)加（6x9 = 54）个操作，而只是舍弃大部分计算结果，因为它们是6x8 = 48 s（我们有垫子）。在这种情况下，实际所需的计算为：

nrows x (n-1)_cols

即使是这个玩具示例，也可以节省很多。现在，您可以想象使用0对于具有数百万个条目的大型张量可以节省多少计算量（成本，能源，时间，碳排放等）。

借助所使用的颜色编码，可以从下图了解9-mult 8-add 8-mult 7-add 6-mult 5-add 4-mult 3-add 3-mult 2-add 2-mult 1-add --------------- 32-mult 26-add的功能：

使用pack_padded_sequence()的结果是，我们将得到一个张量元组，其中包含（i）展平（沿上图中的轴1）pack_padded_sequence()，（ii）相应的批次大小，上面的示例为pack_padded_sequence()。

然后可以将数据张量（即展平的序列）传递给诸如CrossEntropy之类的目标函数以进行损耗计算。

¹个图像积分归功于@sgrvinod

Answer 5

我使用了如下的填充序列。

packed_embedded = nn.utils.rnn.pack_padded_sequence(seq, text_lengths)
packed_output, hidden = self.rnn(packed_embedded)

其中text_lengths是在给定的批处理中，填充和序列根据长度的递减顺序进行排序之前各个序列的长度。

您可以查看示例here。

我们进行打包，以便RNN在处理会影响整体性能的序列时不会看到不需要的填充索引。

为什么我们将序列打包在pytorch中？

5 个答案:

让我们举个例子

将此工作与标准方法进行比较