您可以推荐哪种训练方法来训练基于注意力的序列来对神经机器翻译模型进行排序? SGD,Adadelta,Adam还是更好的东西?请提出一些建议,谢谢。
答案 0 :(得分:0)
使用自适应梯度算法,如Adam或Adadelta或RMSProp。我倾向于使用亚当,并且总是与剪裁的渐变相结合。
自适应梯度算法具有每个参数的学习率。当您的模型中某些参数可能更稀疏(增加其学习速率)或不稀疏(降低其学习速率)时,这非常有用。如果你正在使用像神经机器翻译这样的东西,这种稀疏性就是一个问题。我认为亚当的计算成本要高一些,但效果会很好。