学习率在LSTM中衰减

时间:2016-08-02 14:49:19

标签: machine-learning tensorflow lstm

我目前正在复制http://karpathy.github.io/2015/05/21/rnn-effectiveness/中描述的char-RNN代码。已经在tensorflow中实现了代码,我所指的代码位于https://github.com/sherjilozair/char-rnn-tensorflow/blob/master/train.py我对学习速率衰减有疑问。在代码中,优化器被定义为AdamOptimizer。当我查看代码时,我看到一行如下:

for e in range(args.num_epochs):
        sess.run(tf.assign(model.lr, args.learning_rate * (args.decay_rate ** e)))

通过衰减常数调整学习率。 我的问题是:亚当优化器是否能让我们控制学习率?为什么我们仍然在这里使用学习率的衰减率?

1 个答案:

答案 0 :(得分:0)

我认为你的意思是RMSprop而不是Adam,你链接的两个代码都使用RMSprop。 RMSprop只能将渐变缩放到没有太大或太小的规范。因此,当我们在几个时期之后不得不放慢训练时,重要的是要降低学习率。