我应该避免使用L2正则化与RMSprop和NAG结合吗?
L2正则化项干扰梯度算法(RMSprop)?
最好的问题,
答案 0 :(得分:1)
似乎有人已经解决了(2018)问题(2017)。
Vanilla自适应梯度(RMSProp,Adagrad,Adam等)与L2正则化不匹配。
链接到论文[https://arxiv.org/pdf/1711.05101.pdf]和一些介绍:
在本文中,我们展示了一个 最受欢迎的普遍化的主要因素 自适应梯度法,亚当,是由于L2的事实 正规化并不像SGD那样有效。
L2正则化和权重衰减不相同。 与普遍看法相反,这两种技术并非如此 当量。对于SGD,它们可以等同于 基于权重衰减因子的重新参数化 学习率;亚当并非如此。的在 特别是,当与自适应梯度结合时,L2 正则化导致具有大梯度的权重 正常化比使用时更少 体重衰减。