不使用tf.train.AdamOptmizer的原因是什么?

时间:2016-05-24 12:53:12

标签: tensorflow gradient-descent

我已经阅读了this article,看起来,如果有足够的内存,你应该总是使用Adam而不是其他可能的优化算法(adadelta,rmsprop,vanilla sgd等)。是否存在任何玩具或现实世界的例子,其中亚当会比另一个算法更糟糕?我想象一下,对于大多数密集输入的凸起损失函数,你可能会得到更快的收敛与vanilla SGD,但你仍然需要调整你的学习计划和需要一些时间的东西。

2 个答案:

答案 0 :(得分:0)

我倾向于使用vanilla sgd,只要我仍然正在使得一般的图形布局正确,因为ADAM和AdaGrad带来了很多矩阵 - 它们的开销,使调试变得更加困难。但是一旦你拥有了你的模型并想要大规模训练,我想ADAM,AdaGrad和rmsprop就是你的选择。我个人的经验是,在seq2seq任务上工作AdaGrad是非常有效和稳定的。

答案 1 :(得分:0)

没有最优化的优化方法。见免费午餐定理。