在AdamOptimizer中使用动态学习率是否合理?

时间:2017-01-03 11:39:40

标签: tensorflow deep-learning

我正在开发一个基于三个类的图像识别的卷积神经网络。 我建立了一个基于AlexNet的模型来训练。 我想知道两件事:

  1. AdamOptimizer 是否在内部(从固定的给定值)执行学习率衰减?
  2. 如果没有,我可以使用tf.train.exponential_decay进行衰变吗?
  3. 赞赏小例子。 感谢

2 个答案:

答案 0 :(得分:9)

正如您在adam.py AdamOptimizer中看到的那样,我们会调整其学习率。

传递给构造函数的学习速率只是给出了初始值。

所以是的,在AdamOptimizer上使用指数衰减但在梯度下降或动量优化器上没有多大意义。有关示例,请参阅here

答案 1 :(得分:3)

  

AdamOptimizer是否在内部(从固定的给定值)执行学习率衰减?

是的,亚当确实在学习率下降。

你应该看看亚当如何运作:

  

d。 Kingma和J. Ba,“亚当:随机优化的方法”,   arXiv preprint arXiv:1412.6980,2014年12月。[在线]。可用:   https://arxiv.org/abs/1412.6980

总结一下:亚当是RMSProp的动力和偏见修正。这里有一个非常好的解释:http://sebastianruder.com/optimizing-gradient-descent/index.html#adam