Tensor-flow具有近端梯度下降优化器,可以称为:
loss = Y-w*x # example of a loss function. w-weights to be calculated. x - inputs.
opt=proximal_gradient_descent.ProximalGradientDescentOptimizer(learningrate,l1_regularization_strength, l2_regularization_strength)
opt_step= opt.minimize(loss)
因为我们知道近端梯度下降采用l1范数和l2范数作为正则化,所以我的问题出现了:我应该在丢失中包含l1 / l2范数的部分,或者我应该使用看起来像我失去了吗?
此外,似乎ProximalGradientDescentOptimizer是在proximal_gradient_descent下定义的,而minim是在优化器下定义的。我不知道normalrization_strength是否可以传递给优化器。
有关于这些问题的想法的人,请告诉我。谢谢!
答案 0 :(得分:0)
使用张量流优化器,它将正则化作为优化器参数,不包括损失函数中的正则化项。许多优化器特殊情况下的正则化,如果你还在那里添加正规化器,你将最终重复计算或失去这种特殊外壳的优点。