新元动量0.9和0.99

时间:2017-05-31 11:08:57

标签: machine-learning neural-network deep-learning caffe

我有一个SGD求解器:

base_lr: 1e-2    
lr_policy: "step"
gamma: 0.1       
stepsize: 10000  
max_iter: 300000  
momentum: 0.9

根据Caffe的文档中的建议,他们说“如果你增加μ,相应地减少α可能是一个好主意(反之亦然)”。因此,如果我选择动量是0.99,那么我认为base_lr必须是1e-4

base_lr: 1e-4    
lr_policy: "step"
gamma: 0.1       
stepsize: 10000  
max_iter: 300000  
momentum: 0.99

我是对的吗?我是否还需要增加stepsize?与较小的动量(即0.99)相比,使用更大的动量(即0.9)有什么好处?

1 个答案:

答案 0 :(得分:3)

感谢您的澄清。不,这不是直接关联。您需要的更改量是您通过数据集和max_iter(也需要调整)的实验确定的。您可能会发现动量0.99的最佳lr是1e-3,1e-5或其他。您可能会发现0.99太重而无法获得最佳结果,您需要退回到0.92或0.97

如果没有关于这种情况的详细信息,我无法猜测哪种方法比我刚给出的猜测范围更好。我的工作更侧重于调整其他超参数;动量= 0.90对我们所有的应用都有好处。