在PyTorch中为Cuda变量分配了新值后,它将再次成为CPU变量(如下代码所示)。在这种情况下,以前由GPU上的变量保存的内存是否会自动释放?
import torch
t1 = torch.empty(4,5)
if torch.cuda.is_available():
t1 = t1.cuda()
print(t1.is_cuda)
t1 = torch.empty(4,5)
print(t1.is_cuda)
以上代码的输出为:
True
False
答案 0 :(得分:2)
在python中,只要没有剩余引用,就释放该对象。由于您分配了t1
来引用全新的张量,因此不再有对原始GPU张量的引用,从而可以释放张量。就是说,当指示PyTorch释放GPU张量时,它倾向于将GPU内存缓存一段时间,因为通常情况下,如果我们一次使用GPU内存,我们可能会想再次使用它,并且GPU内存分配相对较慢。如果要强制清除此GPU内存缓存,可以使用torch.cuda.empty_cache
。使用此功能不会直接增加单个PyTorch实例中可用的GPU内存,因为PyTorch会自动调用它,以尝试避免GPU内存不足的错误。
重申一下,GPU张量实际上并没有“变成” CPU张量。在python中,变量名称是对对象的引用。您的代码真正的作用是分配t1
来引用新的CPU张量对象。在内部,python计算每个对象的引用数。当该计数变为零时,该对象立即被释放。
注意事项(参考周期):在无法达到参考周期的情况下,参考计数失败。当对象包含对另一个对象的引用,但在该周期中没有任何对象的引用可到达时,将发生无法访问的引用周期。为了解决这个问题,python使用了一个垃圾回收模块,该模块间歇执行。该模块使用更复杂的算法来检测和释放不可达参考循环中的对象。在这些情况下,当一个循环变得不可访问时,不必释放内存,而是在激活内部垃圾收集器后释放内存。这是自动发生的并且相对不可预测。如果需要,可以使用python内置的gc
垃圾收集接口查询,配置或手动执行垃圾收集器。
根据前面的讨论,如果您确实要确保在PyTorch中释放了无法访问的GPU内存(即使在无法访问的参考周期中),您可以使用
import gc
gc.collect()
torch.cuda.empty_cache()