使用AMSGrad的ADAM优化器的异常行为

时间:2019-05-02 14:03:13

标签: optimization neural-network

我正在尝试一些1、2和3层LSTM网络,以从Landsat时间序列光谱数据中对某些选定像素的陆地覆盖进行分类。我尝试了不同的优化器(在Keras中实现),以查看其中哪个更好,并且在我的案例中,通常发现ADAM的AMSGrad变体做得相对更好。但是,对我而言,一个奇怪的事情是,对于AMSGrad变体,训练和测试的准确性从第一个时期开始就具有相对较高的值(而不是逐渐增加),并且此后仅略有变化,如下图所示

Performance of ADAM optimizer with AMSGrad on

Performance of ADAM optimizer with AMSGrad off

我没有在任何其他优化器中看到此行为。它在我的实验中显示出问题了吗?对这种现象有什么解释?

1 个答案:

答案 0 :(得分:0)

请注意LSTM层的数量。他们因容易过度拟合数据而臭名昭著。最初尝试使用较小的模型(较少的层数),然后逐渐增加层中的单元数。如果发现效果不佳,请尝试添加另一个LSTM层,,但仅在完成上一步之后。

对于优化器,我必须承认我从未使用过AMSGrad。但是,在AMSGrad关闭的情况下,关于精度的绘图似乎要好得多。您可以看到,当使用AMSGrad时,训练集上的准确性比测试集上的准确性要好得多,这是过度拟合的明显标志。

请记住要保持简单,尝试使用简单的模型和通用优化器。