从Tensorflow(翻译,ptb)的各种示例中,您似乎需要在使用GradientDescentOptimizer时明确更改学习率。但是在使用更复杂的' Adagrad,Adadelta等技术。当我们继续从保存的实例训练模型时,这些优化器使用的过去值是否保存在模型文件中?
答案 0 :(得分:1)
这取决于您使用的优化程序。香草SGD需要(接受)个人适应学习率。其他人也这样做。例如Adadelta没有。 (https://arxiv.org/abs/1212.5701)
所以这不是取决于Tensorflow,而是取决于你正在使用的优化器的数学背景。
此外:是的,保存并重新开始培训不会重置学习率,但会在保存时继续。