在机器学习成本函数中,如果我们想要最小化两个参数的影响,让我们说theta3和theta4,似乎我们必须给出一个大的正则化参数值,就像下面的等式一样。 / p>
我不太确定为什么更大的正则化参数会降低影响而不是增加影响。这个功能如何运作?
答案 0 :(得分:4)
这是因为通过最小化成本函数可以找到最佳值。
当您增加正则化参数时,优化函数必须选择较小的θ以便最小化总成本。
答案 1 :(得分:3)
在高水平,您可以将正则化参数视为应用一种有利于简单解决方案的奥卡姆剃刀。模型的复杂性通常通过被视为矢量的模型的大小来测量。上例中的整体损失函数由一个误差项和一个正则化项组成,该正则项由λ(正则化参数)加权。因此正则化术语惩罚复杂性(正则化有时也称为惩罚)。如果您通过梯度下降拟合模型,那么考虑会发生什么是很有用的。最初,您的模型非常糟糕,大部分损失来自错误条款,因此模型主要用于调整以减少错误项。通常,随着优化的进行,模型矢量的幅度增加。随着模型的改进和模型向量的增长,正则化项成为损失中更重要的部分。正则化防止模型向量任意增长,从而可以忽略不计的误差减少。 λ只是确定保持模型相对于减少训练误差的相对重要性。 常用的正则化术语有不同类型。您拥有的,最常用于SVM的是L2正则化。它具有在模型矢量的分量之间更均匀地分布重量的副作用。主要的替代方案是L1或套索正则化,其形式为λΣi| wi |,即它惩罚模型参数的和绝对值。它有利于将模型的大小仅集中在少数几个组件中,与L2正则化相反。通常L2倾向于对于低维模型是优选的,而套索倾向于对于诸如文本分类的高维模型更好地工作,其中它导致稀疏模型,即具有很少非零参数的模型。 还有弹性网正则化,它只是L1和L2正则化的加权组合。因此,在损失函数中有3个项:误差项和2个正则化项,每个项都有自己的正则化参数。
答案 2 :(得分:1)
你说你想要最小化两个参数theta3
和theta4
的影响,这意味着这两个参数 NOT 很重要,所以我们要告诉我们想要适合的模型:
这是模型的学习过程:
鉴于theta3
和theta4
是一个非常大的参数 lambda ,当theta3
或theta4
增长时,损失函数相对增长,因为它们(theta3
和theta4
)都有一个很大的乘数( lambda ),以最大限度地减少对象函数(丢失)功能),theta3
和theta4
只能选择一个非常小的值,说它们并不重要。
答案 3 :(得分:0)
随着正则化参数从0增加到无穷大,线性回归残差平方和减小,模型方差减小,Bias增大。
答案 4 :(得分:0)
我会用最简单的语言来尝试。我想您要问的是,在最后添加正则化项如何降低 theta3 和 theta4 等参数的值。
因此,让我们首先假设您将其添加到损失函数的末尾,这应该会大大增加损失,使函数与以前相比有更多的偏差。现在我们将使用任何优化方法,假设这里是梯度下降,梯度下降的工作是找到 theta 的所有值,现在记住这一事实,直到此时我们没有任何 theta 值,如果你解决它,你会意识到如果你最后没有使用正则化项,theta 的值会有所不同。确切地说,对于 theta3 和 theta4 来说,它会更少。
所以这将确保你的假设有更多的偏差和更少的方差。简单来说,它会使方程变得更糟或不像以前那么精确,但它会使方程更好地泛化。