我正在阅读一篇论文,作者在其中进行了以下设置。 $学习率= 1 ^ {-3},动量= 0.9,\ beta_2 = 0.01,\ lambda = 1,\ epsilon = 10 ^ {-4} $
但是,张量流对亚当的设置如下。
tf.keras.optimizers.Adam(learning_rate=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-07, amsgrad=False,
name='Adam', **kwargs)
我的问题是,如何设置$ momentum $和$ \ lambda $
答案 0 :(得分:1)
您可以在文档中查看一下:
opt = tf.keras.optimizers.Adam(learning_rate=0.1)
var1 = tf.Variable(10.0)
loss = lambda: (var1 ** 2)/2.0 # d(loss)/d(var1) == var1
step_count = opt.minimize(loss, [var1]).numpy()
# The first step is `-learning_rate*sign(grad)`
var1.numpy()
Beta1和Beta 2:是动量衰减;请检查以下内容:https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/Adam
https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/Adam