任何直观的解释,为什么学习率需要降低,当时期的损失保持不变?这种方法会不会使网络陷入局部最小值或高原状态?
答案 0 :(得分:2)
让我理解的是假设我的损失函数仅依赖于单个特征。因此,它可能像抛物线。现在假设你在最小值左侧的分支上。如果您选择的学习率太大,这可能会导致您超过最小值并最终进入正确的分支。如果重复此操作,则在两个分支上的点之间保持交替,而不是达到最小值。但是:如果你现在降低你的学习率,你会慢慢接近真正的最低限度。
这意味着:如果您的费用在一段时间内保持相对稳定,那么您可能会超过当地最低费用。因此,您可以尝试减少步骤。
是的:你通常只能通过大多数方法找到局部最小值。由于您通常具有多变量成本函数,因此您可以随机启动并尝试找到某种最小值。正如您通常进行多次运行一样,很可能最终会出现不同的局部最小值。