我目前正在研究 Transformer 架构的个人实现。我编写的代码为 here。
我面临的问题是我认为我的模型没有正确训练,我不确定我应该采取什么样的措施来解决这个问题。在使用权重和偏差可视化模型的梯度直方图后,我得出了这个结论,它们看起来像这样:
梯度似乎很快收敛到零。有一部分代码包含一个使用 ReLU 激活的前馈神经网络,我怀疑死 ReLU 可能是问题所在,因此我将其更改为 Leaky ReLU。然而,使用 Leaky ReLU 无济于事,只会延长零收敛时间。
感谢您对我可能尝试的其他内容的任何反馈。