为什么对动量常数的小调整对SGD结果影响如此之大?

时间:2018-04-23 19:33:39

标签: tensorflow optimization keras momentum

所以我只是在玩Keras,并决定建立一个简单的神经网络进行单变量线性回归。 (epochs = 25,lrate = 0.001,衰减= 100)。我注意到当我在[0.7,0.9]中设置动量时,我的回归的r ^ 2总是> 0.95,但如果我将动量降低到0.7以下,那么我突然开始得到非常差的结果 - 一些模拟将返回r ^ 2为0.5,有些为-2,或0.1等。高方差。

为什么会发生这种情况有直觉吗?我知道动力对SGD有好处,但是当你略微调整动量常数时,我很惊讶地发现模型质量如此明显下降...

0 个答案:

没有答案