近端梯度下降的l1_regularization_strength和l2_regularization_strength的定义

时间:2017-07-21 17:41:34

标签: machine-learning tensorflow

Tensor-flow具有近端梯度下降优化器,可以称为:

loss = Y-w*x # example of a loss function. w-weights to be calculated. x - inputs.

opt=proximal_gradient_descent.ProximalGradientDescentOptimizer(learningrate,l1_regularization_strength, l2_regularization_strength)

opt_step= opt.minimize(loss)

因为我们知道近端梯度下降采用l1范数和l2范数作为正则化,所以我的问题出现了:我应该在丢失中包含l1 / l2范数的部分,或者我应该使用看起来像我失去了吗?

此外,似乎ProximalGradientDescentOptimizer是在proximal_gradient_descent下定义的,而minim是在优化器下定义的。我不知道normalrization_strength是否可以传递给优化器。

有关于这些问题的想法的人,请告诉我。谢谢!

1 个答案:

答案 0 :(得分:0)

使用张量流优化器,它将正则化作为优化器参数,不包括损失函数中的正则化项。许多优化器特殊情况下的正则化,如果你还在那里添加正规化器,你将最终重复计算或失去这种特殊外壳的优点。