答案 0 :(得分:2)
正则化的成本函数受到参数θ的大小的影响。
在λ → +inf
值得注意的是,当λ非常大时,大部分成本将来自正则化项λ * sum (θ²)
,而不是实际成本sum((h_θ - y)²)
,因此在这种情况下,它主要是关于最小化正则化项λ * sum (θ²)
通过将θ趋向0(θ → 0
)
为何λ * sum (θ²)
θ → 0
最小化
考虑正则化术语λ * sum (θ²)
,为了最小化这个术语,唯一的解决方案是推动sum(θ²) → 0
。 (λ
是正常数,sum
项也是正数)
由于θ
项是平方的(θ²
总是正数),唯一的方法是将θ
参数推向0.因此sum(θ²) → 0
表示{{1} }}
总而言之,在这种非常大的情况下λ:
最小化费用函数主要是关于最小化θ → 0
,这需要最小化λ * sum (θ²)
,这需要sum (θ²)
有些直觉回答评论中的问题:
将λ视为一个参数,让您了解您希望发生多少正则化。例如。如果在极端情况下将λ设置为0,则您的成本函数根本不会正则化。如果将λ设置为较低的数字,则可以减少正则化。
反之亦然,你增加λ越多,你的成本函数要求越规则化,因此θ必须越小,以便最小化正则化成本函数。
为什么我们在正则化和中使用θ²而不是θ?
因为目标是小θ(不太容易过度拟合)。
如果正则化项在总和中使用θ而不是θ²,
你可以得到相互抵消的大θ值,
例如θ_1= 1000000且θ_2= -1000001,θ → 0
此处为-1,这是小的,如果你采用sum(θ)
(绝对值)或sum(|θ|)
(平方),你最终会具有很大的价值。
在这种情况下,你可能会因为大的θ值逃脱正则化而导致过度拟合,因为这些术语相互抵消了。
答案 1 :(得分:0)
请注意,总和(在lambda之后)不包括theta(0)。希望这有帮助!
答案 2 :(得分:0)
您好,讨论很晚,但是我刚刚开始学习该课程,这就是我的理解。
基本上,安德鲁正在尝试将多项式方程式转换为二次方程式,并通过将等式参数等于零来惩罚很少的theta参数,这避免了过拟合的问题,因为您现在有了一个已经理解了重要的等式。功能,并忽略了不重要的人。
但是,我们还需要调整成本函数。对于过度拟合方程,成本值理想情况下为零,这是不正确的。所以我们要添加
从i到n。
大lambda有什么问题?
lambda较大时,成本将爆炸并且曲线将变得不合适。选择正确的lambda值很重要。如果您恰好选择了较大的λ,那么选择非常小的θ也很重要,这样成本函数仍然可以控制。这是一个问题,我们想在一天结束时增加多少成本,从而控制lambda和theta的值。