我对pytorch语言建模中的以下代码有疑问:
print("Training and generating...")
for epoch in range(1, config.num_epochs + 1):
total_loss = 0.0
model.train()
hidden = model.init_hidden(config.batch_size)
for ibatch, i in enumerate(range(0, train_len - 1, seq_len)):
data, targets = get_batch(train_data, i, seq_len)
hidden = repackage_hidden(hidden)
model.zero_grad()
output, hidden = model(data, hidden)
loss = criterion(output.view(-1, config.vocab_size), targets)
loss.backward()
请检查第5行。
init_hidden函数如下:
def init_hidden(self, bsz):
weight = next(self.parameters()).data
if self.rnn_type == 'LSTM': # lstm:(h0, c0)
return (Variable(weight.new(self.n_layers, bsz, self.hi_dim).zero_()),
Variable(weight.new(self.n_layers, bsz, self.hi_dim).zero_()))
else: # gru & rnn:h0
return Variable(weight.new(self.n_layers, bsz, self.hi_dim).zero_())
我的问题是:
为什么我们需要在每个时代都进行init_hidden?该模型不是应该继承上一个时期的隐藏参数,并继续对其进行训练。
答案 0 :(得分:2)
隐藏状态存储RNN的内部状态,这些状态是根据对当前序列中先前标记的预测得出的,这使RNN可以了解上下文。隐藏状态由先前标记的输出确定。
当您预测任何序列的第一个标记时,如果要保留先前序列的隐藏状态,您的模型将执行,就像新序列是旧序列的延续一样,这将带来更差的结果。对于第一个令牌,您可以初始化一个空的隐藏状态,然后将其填充为模型状态并用于第二个令牌。
这样想:如果有人要求您对句子进行分类并交给美国宪法(不相关的信息),而不是有人给您有关句子的背景知识,然后要求您对句子进行分类。
答案 1 :(得分:1)
答案就在init_hidden中。它不是隐藏层权重,而是RNN / LSTM中的初始隐藏状态,在公式中为h0。对于每个时期,我们应该重新初始化一个新的初学者隐藏状态,这是因为在测试期间,我们的模型将不包含有关测试语句的信息,并且初始隐藏状态为零。
答案 2 :(得分:0)
将隐藏状态视为输出,在反向传播期间不会更新。 因此,对于每个新的 epoch,而不是每个新批次(每次迭代),我们都会重新初始化 hidden_state 向量,以便单独计算每个序列的 hidden_state 向量。