我应该避免使用L2正则化与RMSProp结合使用吗?

时间:2017-02-23 12:06:19

标签: machine-learning neural-network backpropagation

我应该避免使用L2正则化与RMSprop和NAG结合吗?

L2正则化项干扰梯度算法(RMSprop)?

最好的问题,

1 个答案:

答案 0 :(得分:1)

似乎有人已经解决了(2018)问题(2017)。

Vanilla自适应梯度(RMSProp,Adagrad,Adam等)与L2正则化不匹配。

链接到论文[https://arxiv.org/pdf/1711.05101.pdf]和一些介绍:

  

在本文中,我们展示了一个   最受欢迎的普遍化的主要因素   自适应梯度法,亚当,是由于L2的事实   正规化并不像SGD那样有效。

     L2正则化和权重衰减不相同。   与普遍看法相反,这两种技术并非如此   当量。对于SGD,它们可以等同于   基于权重衰减因子的重新参数化   学习率;亚当并非如此。的在   特别是,当与自适应梯度结合时,L2   正则化导致具有大梯度的权重   正常化比使用时更少   体重衰减。