在原始paper中,引入 Idea 2 会消除学习率。
那么tensorflow implementation中学习率的含义是什么?
Class AdadeltaOptimizer
:
__init__(
learning_rate=0.001,
rho=0.95,
epsilon=1e-08,
use_locking=False,
name='Adadelta'
)
答案 0 :(得分:1)
它只是将变量更新倍增(参见the update op implementation)。
对于任何“自动学习率”方案,您始终可以按常量缩放结果更新(无论是否需要这样做是一个单独的问题)。
答案 1 :(得分:0)
Adadelta优化器有一种自适应改变学习速率的方法,但仍然需要学习率的初始值。 虽然您可以在tensorflow source code中看到,为了获得Adadelta纸张的确切结果,您应该将其设置为1.0:
learning_rate:
Tensor
或浮点值。学习率。 要匹配原始论文中的确切形式,请使用1.0。