我有一个非常简单的问题。当我们使用$ L_1 $和/或$ L_2 $类型的正则化项执行梯度下降时,即使用
扩展损失函数$ L $$$ L_r = L + l_1 \ sum_i | \ pi_i | + l_2 \ sum_j || \ pi_j || ^ 2 $$
为什么我们不在梯度下降的更新规则中包含$ l_1 $和$ l_2 $变量?
答案 0 :(得分:1)
它是一个超参数,您无法同时更新权重和此参数。如果你将同时使用权重来优化它,关于训练和(或)测试集的损失函数 - 是的,这个参数将变为0并且它将使惩罚部分归零。因为当您训练复杂模型时 - 它可以轻松地过度拟合您的数据集,并完美地预测值,在这种情况下,优化过程可以做的最好的事情是最小化损失,当模型标记数据集完美时 - 将此参数归零。因此,旨在防止过度拟合的参数将无济于事。
但你可以grid search