PyTorch的就地操作

时间:2018-08-13 08:30:42

标签: python neural-network deep-learning pytorch autograd

我想知道如何在PyTorch中处理就地操作。我记得在autograd中使用就地操作一直存在问题。

实际上,令我惊讶的是,即使我尚未测试以下代码,我仍然相信下面的代码会在版本0.3.1中引发错误。

基本上我想做的是将张量向量的某个位置设置为类似的某个值:

my_tensor[i] = 42

工作示例代码:

# test parameter a
a = torch.rand((2), requires_grad=True)
print('a ', a)
b = torch.rand(2)

# calculation
c = a + b

# performing in-place operation
c[0] = 0
print('c ', c)
s = torch.sum(c)
print('s ', s)

# calling backward()
s.backward()

# optimizer step
optim = torch.optim.Adam(params=[a], lr=0.5)
optim.step()

# changed parameter a
print('changed a', a)

输出:

a  tensor([0.2441, 0.2589], requires_grad=True)
c  tensor([0.0000, 1.1511], grad_fn=<CopySlices>)
s  tensor(1.1511, grad_fn=<SumBackward0>)
changed a tensor([ 0.2441, -0.2411], requires_grad=True)

显然,在版本0.4.1中。可以正常工作而不会发出警告或错误。

参考文档中的本文:autograd-mechanics

  

在autograd中支持就地操作很困难,并且我们   在大多数情况下,建议不要使用它们。 Autograd的攻击性缓冲   释放和重用使其非常有效,并且很少   就地操作实际上降低了任何情况下的内存使用率的场合   大量。 除非您在内存不足的情况下进行操作   压力,您可能永远不需要使用它们。

但即使有效,在大多数情况下也不建议使用就地操作。


所以我的问题是:

  • 就地操作的使用对有多少影响?

  • 在想要将张量的一个元素设置为特定值的情况下,如何使用就地操作?

谢谢!

3 个答案:

答案 0 :(得分:1)

这可能不是对您问题的直接回答,而只是为了提供信息。

就地操作适用于计算图中的非叶张量。

叶张量是作为计算图“末端”的张量。正式(来自 is_leaf 属性 here),

<块引用>

对于 requires_grad 为 True 的张量,如果它们是由用户创建的,它们将是叶张量。这意味着它们不是操作的结果,因此 grad_fn 为 None。

没有错误的例子:

a = torch.tensor([3.,2.,7.], requires_grad=True)
print(a)   # tensor([3., 2., 7.], requires_grad=True)
b = a**2
print(b)   # tensor([ 9.,  4., 49.], grad_fn=<PowBackward0>)
b[1] = 0
print(b)   # tensor([ 9.,  0., 49.], grad_fn=<CopySlices>)
c = torch.sum(2*b)
print(c)   # tensor(116., grad_fn=<SumBackward0>)
c.backward()
print(a.grad)  # tensor([12.,  0., 28.])

另一方面,就地操作不适用于张量。

导致错误的示例:

a = torch.tensor([3.,2.,7.], requires_grad=True)
print(a) # tensor([3., 2., 7.], requires_grad=True)
a[1] = 0
print(a) # tensor([3., 0., 7.], grad_fn=<CopySlices>)
b = a**2
print(b) # tensor([ 9.,  0., 49.], grad_fn=<PowBackward0>)
c = torch.sum(2*b)
print(c) # tensor(116., grad_fn=<SumBackward0>)
c.backward()  # Error occurs at this line. 

# RuntimeError: leaf variable has been moved into the graph interior

我想 b[1]=0 操作,在上面的第一个例子中,并不是真正的就地操作。我想它会创建一个带有“CopySlices”操作的新张量。就地操作之前的“旧 b”可能会保留在内部(只是它的名称被“新 b”覆盖)。我发现了一个不错的人物here

旧 b ---(CopySlices)----> 新 b

另一方面,张量 a 是叶张量。在 CopySlices 操作 a[1]=0 之后,它成为一个中间张量。为了避免反向传播时叶张量和中间张量之间出现如此复杂的混合,叶张量的 CopySlices 操作禁止与反向共存。

以上仅为个人观点,请以官方文档为准。

注意:

尽管就地操作适用于中间张量,但在执行一些就地操作时,尽可能多地使用克隆和分离是安全的,以明确创建独立于计算图的新张量。< /p>

答案 1 :(得分:0)

我不确定就地操作会影响性能多少,但是我可以解决第二个查询。您可以使用遮罩而不是就地操作。

a = torch.rand((2), requires_grad=True)
print('a ', a)
b = torch.rand(2)

# calculation
c = a + b

# performing in-place operation
mask = np.zeros(2)
mask[1] =1
mask = torch.tensor(mask)
c = c*mask
...

答案 2 :(得分:0)

对于第二个查询,当您执行c[i] = i或类似操作时,通常会调用__setitem__。要进行适当的操作,您可以尝试调用__setitem__函数(如果执行c[i] = i操作的话。