deep-learning - PyTorch 模型的梯度收敛为零

我目前正在研究 Transformer 架构的个人实现。我编写的代码为 here。

我面临的问题是我认为我的模型没有正确训练，我不确定我应该采取什么样的措施来解决这个问题。在使用权重和偏差可视化模型的梯度直方图后，我得出了这个结论，它们看起来像这样：

梯度似乎很快收敛到零。有一部分代码包含一个使用 ReLU 激活的前馈神经网络，我怀疑死 ReLU 可能是问题所在，因此我将其更改为 Leaky ReLU。然而，使用 Leaky ReLU 无济于事，只会延长零收敛时间。

感谢您对我可能尝试的其他内容的任何反馈。