在Keras和Pytorch中,SGD优化器具有“权重衰减”参数。我发现 tf.train.GradientDescentOptimizer 没有权重衰减参数。随着重量的衰减,SGD的张量流等效量是多少?
Pytorch Optim-https://pytorch.org/docs/stable/optim.html
Keras Optimizer-https://keras.io/optimizers/
答案 0 :(得分:1)
在TensorFlow中减轻重量的一种方法是在损失中添加L2正则化。根据Loshchilov&Hutter的DataFrame.diff()
论文,这等同于标准SGD的权重衰减(但不适用于自适应梯度优化器)。
答案 1 :(得分:0)
tensorflow-addons
包中有一个去耦的权重衰减实现。见
https://www.tensorflow.org/addons/api_docs/python/tfa/optimizers/SGDW
pytorch.optim
的{{1}}是L2正则化,可以得到相同的结果,但是weight_decay
参数的值不同。
要在tensorflow中使用pytorch的相同行为,请添加L2正则化。如果您的图层密集,则可以这样做:
weight_decay