Performance of ADAM optimizer with AMSGrad on
Performance of ADAM optimizer with AMSGrad off
我没有在任何其他优化器中看到此行为。它在我的实验中显示出问题了吗?对这种现象有什么解释?
答案 0 :(得分:0)
请注意LSTM层的数量。他们因容易过度拟合数据而臭名昭著。最初尝试使用较小的模型(较少的层数),然后逐渐增加层中的单元数。如果发现效果不佳,请尝试添加另一个LSTM层,,但仅在完成上一步之后。
对于优化器,我必须承认我从未使用过AMSGrad。但是,在AMSGrad关闭的情况下,关于精度的绘图似乎要好得多。您可以看到,当使用AMSGrad时,训练集上的准确性比测试集上的准确性要好得多,这是过度拟合的明显标志。
请记住要保持简单,尝试使用简单的模型和通用优化器。