应用错误收集

时间：2017-01-03 11:39:40

标签： tensorflow deep-learning

我正在开发一个基于三个类的图像识别的卷积神经网络。我建立了一个基于AlexNet的模型来训练。我想知道两件事：

赞赏小例子。感谢

答案 0 :(得分：9)

正如您在adam.py AdamOptimizer中看到的那样，我们会调整其学习率。

传递给构造函数的学习速率只是给出了初始值。

所以是的，在AdamOptimizer上使用指数衰减但在梯度下降或动量优化器上没有多大意义。有关示例，请参阅here。

答案 1 :(得分：3)

AdamOptimizer是否在内部（从固定的给定值）执行学习率衰减？

是的，亚当确实在学习率下降。

你应该看看亚当如何运作：

d。 Kingma和J. Ba，“亚当：随机优化的方法”， arXiv preprint arXiv：1412.6980，2014年12月。[在线]。可用： https://arxiv.org/abs/1412.6980

总结一下：亚当是RMSProp的动力和偏见修正。这里有一个非常好的解释：http://sebastianruder.com/optimizing-gradient-descent/index.html#adam