我正在开发一个基于三个类的图像识别的卷积神经网络。 我建立了一个基于AlexNet的模型来训练。 我想知道两件事:
tf.train.exponential_decay
进行衰变吗?赞赏小例子。 感谢
答案 0 :(得分:9)
正如您在adam.py AdamOptimizer
中看到的那样,我们会调整其学习率。
传递给构造函数的学习速率只是给出了初始值。
所以是的,在AdamOptimizer
上使用指数衰减但在梯度下降或动量优化器上没有多大意义。有关示例,请参阅here。
答案 1 :(得分:3)
AdamOptimizer是否在内部(从固定的给定值)执行学习率衰减?
是的,亚当确实在学习率下降。
你应该看看亚当如何运作:
d。 Kingma和J. Ba,“亚当:随机优化的方法”, arXiv preprint arXiv:1412.6980,2014年12月。[在线]。可用: https://arxiv.org/abs/1412.6980
总结一下:亚当是RMSProp的动力和偏见修正。这里有一个非常好的解释:http://sebastianruder.com/optimizing-gradient-descent/index.html#adam