我知道深度学习的落后过程遵循梯度下降算法。但是,max
操作从来没有梯度概念。
诸如tensorflow,pytorch之类的深度学习框架如何处理诸如maxpooling
之类的'max'操作的后退?
答案 0 :(得分:4)
您必须考虑max
运算符的实际作用?那就是:
这就是这里所做的-它需要两个或多个张量并向前最大传播(仅)。
看看一个简短的例子通常会有所帮助:
t1 = torch.rand(10, requires_grad=True)
t2 = torch.rand(10, requires_grad=True)
s1 = torch.sum(t1)
s2 = torch.sum(t2)
print('sum t1:', s1, 'sum t2:', s2)
m = torch.max(s1, s2)
print('max:', m, 'requires_grad:', m.requires_grad)
m.backward()
print('t1 gradients:', t1.grad)
print('t2 gradients:', t2.grad)
此代码创建两个随机张量,将它们求和并将其通过max函数。然后根据结果调用backward()
。
让我们看一下两种可能的结果:
结果1-t1
的总和较大:
sum t1: tensor(5.6345) sum t2: tensor(4.3965)
max: tensor(5.6345) requires_grad: True
t1 gradients: tensor([ 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])
t2 gradients: tensor([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
结果2-t2
的总和较大:
sum t1: tensor(3.3263) sum t2: tensor(4.0517)
max: tensor(4.0517) requires_grad: True
t1 gradients: tensor([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
t2 gradients: tensor([ 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])
正如您期望的那样,在s1
表示将为t1
计算最大梯度的情况下。同样,当s2
为t2
时,将计算最大梯度。
值得一提的是,其他张量(不代表最大值)仍然是图形的一部分。然后,仅将渐变设置为零。如果它们不属于图形,您将获得None
作为梯度,而不是零向量。
您可以检查使用python-max
而不是torch.max
会发生什么情况:
t1 = torch.rand(10, requires_grad=True)
t2 = torch.rand(10, requires_grad=True)
s1 = torch.sum(t1)
s2 = torch.sum(t2)
print('sum t1:', s1, 'sum t2:', s2)
m = max(s1, s2)
print('max:', m, 'requires_grad:', m.requires_grad)
m.backward()
print('t1 gradients:', t1.grad)
print('t2 gradients:', t2.grad)
输出:
sum t1: tensor(4.7661) sum t2: tensor(4.4166)
max: tensor(4.7661) requires_grad: True
t1 gradients: tensor([ 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])
t2 gradients: None