在课程中没有关于时代的内容,但在实践中它们无处不在。 如果优化器在一次传递中找到最佳权重,为什么我们需要它们。为什么模型会改进?
答案 0 :(得分:0)
通常,只要您想要优化,就可以使用渐变下降。梯度下降有一个称为学习率的参数。仅在一次迭代中,您无法保证梯度下降算法会收敛到具有指定学习速率的局部最小值。这就是为什么你再次迭代梯度下降以更好地收敛的原因。
通过观察学习曲线以获得更好的收敛,这也是改变每个时期学习率的好习惯。
答案 1 :(得分:0)
如果优化程序在一次传递中找到最佳权重,为什么我们需要[训练几个时期]?
在大多数情况下,这是错误的。梯度下降方法(参见a list of them)通常无法在一次通过中找到最佳参数(权重)。事实上,我从未见过任何甚至达到最佳参数的情况(构造案例除外)。
一个时期包含许多重量更新步骤。一个时代意味着优化器已经使用过一次训练示例。为什么我们需要几个时代?因为梯度下降是迭代算法。它改进了,但它只是微小的步骤。它只使用很小的步骤,因为它只能使用本地信息。除了它的当前点之外,它还不知道该功能。
您可能想要阅读我的optimization basics博文的渐变下降部分。