Question

我有三个简单的问题。

如果我的自定义丢失功能不可区分，会发生什么？会发生错误还是做其他事情？
如果我在自定义函数中声明了一个表示模型最终丢失的损失变量，那么我应该为该变量添加requires_grad = True吗？或者它并不重要？如果没关系那么，为什么？
我见过人们有时会写一个单独的图层来计算forward函数中的损失。编写函数或层是哪种方法更可取？为什么？

我需要对这些问题做出明确而好的解释才能解决我的困惑。请帮忙。

Answer 1

让我一起去吧。

这取决于“非差异”的含义。这里有意义的第一个定义是PyTorch不知道如何计算渐变。如果您尝试计算渐变，则会引发错误。两种可能的情况是：

a）您正在使用自定义PyTorch操作，其中尚未实现渐变，例如torch.svd()。在这种情况下，您将获得TypeError：
```
import torch
from torch.autograd import Function
from torch.autograd import Variable

A = Variable(torch.randn(10,10), requires_grad=True)
u, s, v = torch.svd(A) # raises TypeError
```
b）您已实施自己的操作，但没有定义backward()。在这种情况下，您将获得NotImplementedError：
```
class my_function(Function): # forgot to define backward()

    def forward(self, x):
        return 2 * x

A = Variable(torch.randn(10,10))
B = my_function()(A)
C = torch.sum(B)
C.backward() # will raise NotImplementedError
```
有意义的第二个定义是“数学上不可微分”。显然，在数学上不可微分的操作应该不具有实现的backward()方法或者合理的子梯度。考虑例如torch.abs()，其backward()方法在0处返回子梯度0：
```
A = Variable(torch.Tensor([-1,0,1]),requires_grad=True)
B = torch.abs(A)
B.backward(torch.Tensor([1,1,1]))
A.grad.data
```
对于这些情况，您应该直接参考PyTorch文档并直接挖掘相应操作的backward()方法。
没关系。 requires_grad的使用是为了避免对子图的渐变进行不必要的计算。如果对需要渐变的操作有单个输入，则其输出也需要渐变。相反，只有当所有输入都不需要梯度时，输出也不需要它。从不在子图中执行向后计算，其中所有变量都不需要渐变。

因为，很可能有一些Variables（例如nn.Module()的子类的参数），您的loss变量也会自动需要渐变。但是，您应该注意到requires_grad的工作方式（请参见上文），您只能更改图表的叶子变量requires_grad。
所有自定义PyTorch损失函数都是_Loss的子类，nn.Module是_Loss的子类。 See here.如果你想坚持这个约定，你应该在定义自定义损失函数时继承AssertionError。除了一致性之外，如果您没有将目标变量标记为volatile或requires_grad = False，则一个优点是您的子类将引发nn.Sequential()。另一个优点是你可以在nn.Module中嵌套你的损失函数，因为它是oregon.tract我会因为这些原因推荐这种方法。

PyTorch中的自定义丢失功能

1 个答案: