Question

Tensor-flow具有近端梯度下降优化器，可以称为：

loss = Y-w*x # example of a loss function. w-weights to be calculated. x - inputs.

opt=proximal_gradient_descent.ProximalGradientDescentOptimizer(learningrate,l1_regularization_strength, l2_regularization_strength)

opt_step= opt.minimize(loss)

因为我们知道近端梯度下降采用l1范数和l2范数作为正则化，所以我的问题出现了：我应该在丢失中包含l1 / l2范数的部分，或者我应该使用看起来像我失去了吗？

此外，似乎ProximalGradientDescentOptimizer是在proximal_gradient_descent下定义的，而minim是在优化器下定义的。我不知道normalrization_strength是否可以传递给优化器。

有关于这些问题的想法的人，请告诉我。谢谢！

Answer 1

使用张量流优化器，它将正则化作为优化器参数，不包括损失函数中的正则化项。许多优化器特殊情况下的正则化，如果你还在那里添加正规化器，你将最终重复计算或失去这种特殊外壳的优点。

近端梯度下降的l1_regularization_strength和l2_regularization_strength的定义

1 个答案: