Question

我有一个SGD求解器：

base_lr: 1e-2    
lr_policy: "step"
gamma: 0.1       
stepsize: 10000  
max_iter: 300000  
momentum: 0.9

根据Caffe的文档中的建议，他们说“如果你增加μ，相应地减少α可能是一个好主意（反之亦然）”。因此，如果我选择动量是0.99，那么我认为base_lr必须是1e-4

base_lr: 1e-4    
lr_policy: "step"
gamma: 0.1       
stepsize: 10000  
max_iter: 300000  
momentum: 0.99

我是对的吗？我是否还需要增加stepsize？与较小的动量（即0.99）相比，使用更大的动量（即0.9）有什么好处？

Answer 1

感谢您的澄清。不，这不是直接关联。您需要的更改量是您通过数据集和max_iter（也需要调整）的实验确定的。您可能会发现动量0.99的最佳lr是1e-3,1e-5或其他。您可能会发现0.99太重而无法获得最佳结果，您需要退回到0.92或0.97

如果没有关于这种情况的详细信息，我无法猜测哪种方法比我刚给出的猜测范围更好。我的工作更侧重于调整其他超参数;动量= 0.90对我们所有的应用都有好处。