应用错误收集

让我理解的是假设我的损失函数仅依赖于单个特征。因此，它可能像抛物线。现在假设你在最小值左侧的分支上。如果您选择的学习率太大，这可能会导致您超过最小值并最终进入正确的分支。如果重复此操作，则在两个分支上的点之间保持交替，而不是达到最小值。但是：如果你现在降低你的学习率，你会慢慢接近真正的最低限度。

这意味着：如果您的费用在一段时间内保持相对稳定，那么您可能会超过当地最低费用。因此，您可以尝试减少步骤。

是的：你通常只能通过大多数方法找到局部最小值。由于您通常具有多变量成本函数，因此您可以随机启动并尝试找到某种最小值。正如您通常进行多次运行一样，很可能最终会出现不同的局部最小值。