对于将一个LSTM网络的某些预训练输出线性投影层用于另一个LSTM网络,我有一个特定的问题。
我所拥有的: 1.预训练的完全连接层,用于将某些语言生成模型的单词概率输出到实际单词中,例如:
self.output_linear_projection = nn.Linear(self.wordRNN_dim, self.vocab_size)
在这里,self.wordRNN_dim
是512(LSTM的隐藏大小),self.vocab_size
是我的单词数。对于此预训练模型,词汇量为10509,其中有10508个单词,最后一个元素是<end>
和<start>
令牌的投影(这些令牌使用相同的投影)
<pad>
令牌,该令牌在预训练的模型中不存在。所以我的词汇量是10510。 问题:
-如果要在模型中使用此预训练的输出线性投影层,我应该/应该怎么做?不投射<pad>
令牌是否有些常规?如果是这样,我应该以某种方式忽略它吗?而且,如果我有任何步骤要采取,是否有任何在PyTorch中进行操作的提示?