张量流中具有权重衰减参数的SGD

时间:2019-03-07 14:31:48

标签: python tensorflow optimization deep-learning

在Keras和Pytorch中,SGD优化器具有“权重衰减”参数。我发现 tf.train.GradientDescentOptimizer 没有权重衰减参数。随着重量的衰减,SGD的张量流等效量是多少?

Pytorch Optim-https://pytorch.org/docs/stable/optim.html

Keras Optimizer-https://keras.io/optimizers/

2 个答案:

答案 0 :(得分:1)

在TensorFlow中减轻重量的一种方法是在损失中添加L2正则化。根据Loshchilov&Hutter的DataFrame.diff()论文,这等同于标准SGD的权重衰减(但不适用于自适应梯度优化器)。

答案 1 :(得分:0)

  1. tensorflow-addons包中有一个去耦的权重衰减实现。见

    https://www.tensorflow.org/addons/api_docs/python/tfa/optimizers/SGDW

  2. pytorch.optim的{​​{1}}是L2正则化,可以得到相同的结果,但是weight_decay参数的值不同。

    要在tensorflow中使用pytorch的相同行为,请添加L2正则化。如果您的图层密集,则可以这样做:

    weight_decay