我正在为任务实现梯度下降,并且对于权重何时停止更新感到困惑。当权重变化不大时,即当weight i -weight previous i <=(某个阈值)时,我是否停止更新权重。
此外,按照我目前在上面实现它的方式,可以在Weight2之前完成Weight1。是这样吗?还是应该同时完成所有权重?
答案 0 :(得分:0)
为简单起见,当成本/损失最小化时,您就停止了。
您应该使用偏导数分布梯度。
答案 1 :(得分:0)
如果可以使用渐变,则可以在渐变的l2范数低于某个阈值时停止,如果没有,则可以对权重之差的l2范数使用方法,通常是在在这种情况下,阈值不是绝对的,而是相对于|| weight_i ||| + small_delta的。您可能还会发现此链接有用:https://math.stackexchange.com/questions/1618330/stopping-criteria-for-gradient-method 请注意,您需要对要最小化的函数的性质进行一些假设,以确保最小化(存在最小值,吸引盆中的起点,这对于强凸函数而言不是问题,但通常不正确)。