如果我将常数乘以损失函数会发生什么?我想我会得到更大的渐变,对吗?是否等于拥有更高的学习率?
答案 0 :(得分:4)
是的,你是对的。它相当于改变学习率。
答案 1 :(得分:3)
基本上 - 这取决于很多事情:
如果您使用带有更新规则的经典随机/批次/完整批次学习,其中:
new_weights = old_weights - learning_rate * gradient
然后由于乘法交换 - 你的说法是正确的。
如果您正在使用具有自适应学习率的任何学习方法(如ADAM
或rmsprop
) - 那么事情会发生一些变化。然后 - 你的渐变会受到乘法的影响 - 但学习率根本不会受到影响。这取决于成本函数的新值如何与学习算法配合。
如果您使用的是一种学习方法,其中您具有自适应梯度但不具有自适应学习率 - 通常学习率会受到与第1点相同的影响(例如,在momentum
方法中)。