我试图弄清楚函数grad
的工作原理。
这是我的代码:
A = torch.Tensor(2, 3).uniform_(-1, 1).requires_grad_()
B = torch.Tensor(3, 1).uniform_(-1, 1).requires_grad_()
o = torch.matmul(A,B)
print("A : ", A)
print("B : ", B)
do_dinput = torch.autograd.grad(o, A, grad_outputs=torch.ones(2, 1))
print('Size do/dA :', (do_dinput[0].size()))
我期望打印torch.Size([1, 3])
,因为AB
的{{1}}的派生词是A
。但是,我得到了B^T
。
我的代码是否有问题,或者我缺少什么?
答案 0 :(得分:2)
获得的是从o反向传播通过计算图到A的等级。最后,您将获得A中每个值的等级。
与以下操作相同
A = torch.Tensor(2, 3).uniform_(-1, 1).requires_grad_()
B = torch.Tensor(3, 1).uniform_(-1, 1).requires_grad_()
o = torch.matmul(A,B).sum()
o.backward()
print("A : ", A)
print("B : ", B)
print(A.grad)
此示例中的 A.grad
和do_dinput
相同。如果您查看梯度张量,则两行都只是B^T
。
为了使操作更加直观。我们有A和B作为输入,还有一些函数f(...),它从A和B中获取所有值作为输入并计算一些值。在这种情况下,函数为sum(AB)。
注意:求和不会以任何方式改变渐变。
A = x_1 x_2 x_3
x_4 x_5 x_6
B = y_1
y_2
y_3
o = x_1 * y_1 + x_2 * y_2 + x_3 * y_3
x_4 * y_1 + x_5 * y_2 + x_6 * y_3
f(x_1,...,x_6, y_1, y_2, y_3) = x_1 * y_1 + x_2 * y_2 + x_3 * y_3 + x_4 * y_1 + x_5 * y_2 + x_6 * y_3
如果现在计算梯度,则可以得出所有变量的f(...)。所以对于x_1来说应该是
df/dx_1 = y_1
因此,A中x_1的grad值等于y_1。这是针对所有其他值完成的。因此最后,您将获得A和B中所有条目的grad值。
在您的示例中,它的工作原理相同,只是跳过了张量的求和。