应用错误收集

我会将你的the original paper推荐给Kaiming He at al。

在3.1-3.2节中，他们定义了＃34;身份＆＃34;快捷方式为y = F(x, W) + x，其中W是可训练的参数，表示要学习的任何残差映射 F。重要的是残差映射包含非线性，否则整个结构是一个复杂的线性层。但是线性的数量不受限制。

例如，ResNeXt network只在一堆卷积层周围创建了身份快捷方式（参见下图）。因此，剩余块中没有任何密集层。

一般的答案是：是的，它会起作用。然而，在特定的神经网络中，将两个密集层减少到一个可能是个坏主意，因为无论如何，残余块必须足够灵活以学习剩余功能。所以请记住验证你提出的任何设计。