标签: optimization neural-network gradient-descent
当我们想要使用梯度下降和RMSProp优化器进行优化时,例如在神经网络中,它假设偏置振荡的幅度大于权重振荡的幅度,直到它收敛到局部最优。因此,它尝试使用特定的公式来减少这些振荡。
为什么会这样?
https://engmrk.com/rmsprop/
http://ruder.io/optimizing-gradient-descent/