具有非常大的λ的正则化成本函数

时间:2016-08-20 09:31:26

标签: optimization machine-learning artificial-intelligence

在机器学习中考虑具有正则化的成本函数:

enter image description here

当我们将参数λ设置得非常大时,为什么参数θ朝向零?

3 个答案:

答案 0 :(得分:2)

正则化的成本函数受到参数θ的大小的影响。

λ → +inf

的情况下,正则化术语占主导地位

值得注意的是,当λ非常大时,大部分成本将来自正则化项λ * sum (θ²),而不是实际成本sum((h_θ - y)²),因此在这种情况下,它主要是关于最小化正则化项λ * sum (θ²)通过将θ趋向0(θ → 0

为何λ * sum (θ²)

会导致θ → 0最小化

考虑正则化术语λ * sum (θ²),为了最小化这个术语,唯一的解决方案是推动sum(θ²) → 0。 (λ是正常数,sum项也是正数)

由于θ项是平方的(θ²总是正数),唯一的方法是将θ参数推向0.因此sum(θ²) → 0表示{{1} }}

总而言之,在这种非常大的情况下λ:

最小化费用函数主要是关于最小化θ → 0,这需要最小化λ * sum (θ²),这需要sum (θ²)

有些直觉回答评论中的问题:

将λ视为一个参数,让您了解您希望发生多少正则化。例如。如果在极端情况下将λ设置为0,则您的成本函数根本不会正则化。如果将λ设置为较低的数字,则可以减少正则化。

反之亦然,你增加λ越多,你的成本函数要求越规则化,因此θ必须越小,以便最小化正则化成本函数。

为什么我们在正则化和中使用θ²而不是θ?

因为目标是小θ(不太容易过度拟合)。 如果正则化项在总和中使用θ而不是θ², 你可以得到相互抵消的大θ值, 例如θ_1= 1000000且θ_2= -1000001,θ → 0此处为-1,这是小的,如果你采用sum(θ)(绝对值)或sum(|θ|)(平方),你最终会具有很大的价值。

在这种情况下,你可能会因为大的θ值逃脱正则化而导致过度拟合,因为这些术语相互抵消了。

答案 1 :(得分:0)

请注意,总和(在lambda之后)不包括theta(0)。希望这有帮助!

答案 2 :(得分:0)

您好,讨论很晚,但是我刚刚开始学习该课程,这就是我的理解。

基本上,安德鲁正在尝试将多项式方程式转换为二次方程式,并通过将等式参数等于零来惩罚很少的theta参数,这避免了过拟合的问题,因为您现在有了一个已经理解了重要的等式。功能,并忽略了不重要的人。

但是,我们还需要调整成本函数。对于过度拟合方程,成本值理想情况下为零,这是不正确的。所以我们要添加the [![enter image description here][1]][1]

如果仔细观察,这是从j到n,另一部分, enter image description here

从i到n。

大lambda有什么问题?

lambda较大时,成本将爆炸并且曲线将变得不合适。选择正确的lambda值很重要。如果您恰好选择了较大的λ,那么选择非常小的θ也很重要,这样成本函数仍然可以控制。这是一个问题,我们想在一天结束时增加多少成本,从而控制lambda和theta的值。