应用错误收集

时间：2017-03-10 10:33:20

标签： machine-learning

在课程中没有关于时代的内容，但在实践中它们无处不在。如果优化器在一次传递中找到最佳权重，为什么我们需要它们。为什么模型会改进？

答案 0 :(得分：0)

通常，只要您想要优化，就可以使用渐变下降。梯度下降有一个称为学习率的参数。仅在一次迭代中，您无法保证梯度下降算法会收敛到具有指定学习速率的局部最小值。这就是为什么你再次迭代梯度下降以更好地收敛的原因。

通过观察学习曲线以获得更好的收敛，这也是改变每个时期学习率的好习惯。

答案 1 :(得分：0)

如果优化程序在一次传递中找到最佳权重，为什么我们需要[训练几个时期]？

在大多数情况下，这是错误的。梯度下降方法（参见a list of them）通常无法在一次通过中找到最佳参数（权重）。事实上，我从未见过任何甚至达到最佳参数的情况（构造案例除外）。

一个时期包含许多重量更新步骤。一个时代意味着优化器已经使用过一次训练示例。为什么我们需要几个时代？因为梯度下降是迭代算法。它改进了，但它只是微小的步骤。它只使用很小的步骤，因为它只能使用本地信息。除了它的当前点之外，它还不知道该功能。

您可能想要阅读我的optimization basics博文的渐变下降部分。