在正则化中,为什么我们使用θ^ 2而不是θ?

时间:2016-08-20 13:09:30

标签: machine-learning mathematical-optimization

enter image description here

正则化是lambda * sum(θ^ 2)

1 个答案:

答案 0 :(得分:4)

我在上一个问题中already answered这个问题(参见最后一段),但我会再试一次。

sum(θ)正则化的问题是你可能有θ参数相互抵消

示例:

θ_1 = +1000000
θ_2 = -1000001

这里的sum(θ)是+1000000 -1000001 = -1,这是小

sum(θ²)是1000000²+( - 1000001)²,非常大。

如果你使用sum(θ),你可能最终没有正则化(这是目标),因为大的θ值逃脱了正则化,因为这些术语相互抵消了。

您可以使用sum(|θ|),具体取决于您的搜索/优化算法。但我知道θ²(L2范数)很受欢迎,并且适用于梯度下降。