Question

在原始paper中，引入 Idea 2 会消除学习率。

那么tensorflow implementation中学习率的含义是什么？

Class AdadeltaOptimizer：

__init__(
    learning_rate=0.001,
    rho=0.95,
    epsilon=1e-08,
    use_locking=False,
    name='Adadelta'
)

Answer 1

它只是将变量更新倍增（参见the update op implementation）。

对于任何“自动学习率”方案，您始终可以按常量缩放结果更新（无论是否需要这样做是一个单独的问题）。

Answer 2

Adadelta优化器有一种自适应改变学习速率的方法，但仍然需要学习率的初始值。虽然您可以在tensorflow source code中看到，为了获得Adadelta纸张的确切结果，您应该将其设置为1.0：

learning_rate：Tensor或浮点值。学习率。要匹配原始论文中的确切形式，请使用1.0。