我收到一个错误“ CUDA内存不足”,然后将torch.no_grad()函数添加到了我的代码中。这会影响我的准确性吗?
for iters in range(args.iterations):
with torch.no_grad():
encoded, encoder_h_1, encoder_h_2, encoder_h_3 = encoder(
res, encoder_h_1, encoder_h_2, encoder_h_3)
with torch.no_grad():
code = binarizer(encoded)
with torch.no_grad():
output, decoder_h_1, decoder_h_2, decoder_h_3, decoder_h_4 = decoder(
code, decoder_h_1, decoder_h_2, decoder_h_3, decoder_h_4)
res = res - output.detach()
codes.append(code.data.cpu().numpy())
torch.cuda.empty_cache()
print('Iter: {:02d}; Loss: {:.06f}'.format(iters, res.data.abs().mean()))
答案 0 :(得分:1)
torch.no_grad()
仅禁用对以后计算梯度所需的所有计算的跟踪。
在纯推理模式下,它不会对准确性产生任何影响,因为那里不需要渐变。当然,在训练期间您不能使用它,因为我们需要渐变来训练和优化。
通常,如果您要进行推断,则总是希望将网络设置为评估模式并禁用渐变。这样可以节省运行时间和内存消耗,并且不会影响准确性。
回答类似的问题,解释eval()
和no_grad()
https://discuss.pytorch.org/t/model-eval-vs-with-torch-no-grad/19615/2
答案 1 :(得分:1)
torch.no_grad()
基本上跳过了权重上的梯度计算。这意味着您不会更改指定图层中的任何权重。如果您是训练过的预训练模型,则可以在除完全连接的层或分类器层之外的所有层上使用torch.no_grad()
。
如果您要从头训练网络,这不是一件好事。您应该考虑减少培训次数或应用torch.no_grad()
部分培训。下面是一个示例。
for iters in range(args.iterations):
if iters % 2 == 0:
with torch.no_grad():
encoded, encoder_h_1, encoder_h_2, encoder_h_3 = encoder(
res, encoder_h_1, encoder_h_2, encoder_h_3)
else:
with torch.no_grad():
encoded, encoder_h_1, encoder_h_2, encoder_h_3 = encoder(
res, encoder_h_1, encoder_h_2, encoder_h_3)
这是一个简短的示例。这可能会使您的训练时间更长一些,但是您将能够在不减少层数的情况下训练网络。重要的是,您不应在每次迭代或每次更新时都更新所有图层。网络的某些部分应以指定的频率进行更新。 注意:这是实验方法
答案 2 :(得分:0)
根据PyTorch文档:
当您确定不会调用Tensor.backward()时,禁用梯度计算对于推断很有用。它将减少原本需要require_grad = True的计算的内存消耗。
因此,这取决于您打算做什么。如果您要训练模型,则可以,这会影响您的准确性。