caffe可以做到这一点。因为某些神经网络层需要很大的学习速度,但转换层需要小的lr。如何控制不同的层在chainer中有不同的lr,以便优化器可以根据对应的lr?
进行更新答案 0 :(得分:0)
您可以为hyperparam
的每个参数覆盖update_rule
,其中指定了optimizer
的更新策略,如下所示,
model.l1.W.update_rule.hyperparam.lr = 0.01
有关详细信息,我已经在
回答了同样的问题How to implement separate learning rate or optimizer in different layer in Chainer?
顺便说一下,chainer的函数没有任何parameter
要更新,因此函数没有update_rule
。