PyTorch 模型的梯度收敛为零

时间:2020-12-19 02:47:42

标签: deep-learning neural-network pytorch

我目前正在研究 Transformer 架构的个人实现。我编写的代码为 here

我面临的问题是我认为我的模型没有正确训练,我不确定我应该采取什么样的措施来解决这个问题。在使用权重和偏差可视化模型的梯度直方图后,我得出了这个结论,它们看起来像这样:

enter image description here

梯度似乎很快收敛到零。有一部分代码包含一个使用 ReLU 激活的前馈神经网络,我怀疑死 ReLU 可能是问题所在,因此我将其更改为 Leaky ReLU。然而,使用 Leaky ReLU 无济于事,只会延长零收敛时间。

感谢您对我可能尝试的其他内容的任何反馈。

0 个答案:

没有答案
相关问题