评估L1和L2类型的乘数的值

时间:2015-08-05 15:07:30

标签: machine-learning gradient-descent

我有一个非常简单的问题。当我们使用$ L_1 $和/或$ L_2 $类型的正则化项执行梯度下降时,即使用

扩展损失函数$ L $

$$ L_r = L + l_1 \ sum_i | \ pi_i | + l_2 \ sum_j || \ pi_j || ^ 2 $$

为什么我们不在梯度下降的更新规则中包含$ l_1 $和$ l_2 $变量?

1 个答案:

答案 0 :(得分:1)

它是一个超参数,您无法同时更新权重和此参数。如果你将同时使用权重来优化它,关于训练和(或)测试集的损失函数 - 是的,这个参数将变为0并且它将使惩罚部分归零​​。因为当您训练复杂模型时 - 它可以轻松地过度拟合您的数据集,并完美地预测值,在这种情况下,优化过程可以做的最好的事情是最小化损失,当模型标记数据集完美时 - 将此参数归零。因此,旨在防止过度拟合的参数将无济于事。

但你可以grid search