torch.no_grad()影响模型的准确性

时间:2020-08-11 03:55:56

标签: python model pytorch torch image-compression

我收到一个错误“ CUDA内存不足”,然后将torch.no_grad()函数添加到了我的代码中。这会影响我的准确性吗?

for iters in range(args.iterations):

with torch.no_grad():
    encoded, encoder_h_1, encoder_h_2, encoder_h_3 = encoder(
    res, encoder_h_1, encoder_h_2, encoder_h_3)

with torch.no_grad():
    code = binarizer(encoded)

with torch.no_grad():
    output, decoder_h_1, decoder_h_2, decoder_h_3, decoder_h_4 = decoder(
    code, decoder_h_1, decoder_h_2, decoder_h_3, decoder_h_4)

res = res - output.detach()
codes.append(code.data.cpu().numpy())
torch.cuda.empty_cache()
print('Iter: {:02d}; Loss: {:.06f}'.format(iters, res.data.abs().mean()))

3 个答案:

答案 0 :(得分:1)

torch.no_grad()仅禁用对以后计算梯度所需的所有计算的跟踪。

在纯推理模式下,它不会对准确性产生任何影响,因为那里不需要渐变。当然,在训练期间您不能使用它,因为我们需要渐变来训练和优化。

通常,如果您要进行推断,则总是希望将网络设置为评估模式并禁用渐变。这样可以节省运行时间和内存消耗,并且不会影响准确性。

回答类似的问题,解释eval()no_grad() https://discuss.pytorch.org/t/model-eval-vs-with-torch-no-grad/19615/2

答案 1 :(得分:1)

torch.no_grad()基本上跳过了权重上的梯度计算。这意味着您不会更改指定图层中的任何权重。如果您是训练过的预训练模型,则可以在除完全连接的层或分类器层之外的所有层上使用torch.no_grad()

如果您要从头训练网络,这不是一件好事。您应该考虑减少培训次数或应用torch.no_grad()部分培训。下面是一个示例。

for iters in range(args.iterations):

if iters % 2 == 0:
    with torch.no_grad():
        encoded, encoder_h_1, encoder_h_2, encoder_h_3 = encoder(
        res, encoder_h_1, encoder_h_2, encoder_h_3)
else:
    with torch.no_grad():
        encoded, encoder_h_1, encoder_h_2, encoder_h_3 = encoder(
        res, encoder_h_1, encoder_h_2, encoder_h_3)

这是一个简短的示例。这可能会使您的训练时间更长一些,但是您将能够在不减少层数的情况下训练网络。重要的是,您不应在每次迭代或每次更新时都更新所有图层。网络的某些部分应以指定的频率进行更新。 注意:这是实验方法

答案 2 :(得分:0)

根据PyTorch文档:

当您确定不会调用Tensor.backward()时,禁用梯度计算对于推断很有用。它将减少原本需要require_grad = True的计算的内存消耗。

因此,这取决于您打算做什么。如果您要训练模型,则可以,这会影响您的准确性。