我正在阅读有关正规化的from this link,我无法理解如何将这一特定概念与惩罚相关联。
我们在上面介绍的损失功能有一个错误。假设我们有一个数据集和一组参数W,它们正确地对每个例子进行分类(即所有分数都满足所有余量,并且所有i的Li = 0Li = 0)。问题是这组W不一定是唯一的:可能有许多类似的W正确地对示例进行分类。一个简单的方法是,如果某些参数W正确地对所有示例进行分类(因此每个示例的损失为零),那么这些参数λW中的任何倍数,其中λ> 1也将给出零损失,因为该变换均匀地拉伸所有分数量级因此也是他们的绝对差异。
我猜我可以把它想象成乘以2D中的直线方程的系数并且尽管乘以系数仍然满足方程。或者有更好的方式来考虑它吗?
例如,如果正确的类和最近的不正确的类之间的分数差异为15,那么将W的所有元素乘以2将使新差异为30。
换句话说,我们希望对某些权重W的某些偏好进行编码,以消除这种歧义。 >
我不明白这句话。我是否理解需要一组独特的权重/参数(但为什么?)?
我们可以通过用正则化惩罚R(W)扩展损失函数来实现。最常见的正则化惩罚是L2范数,它通过对所有参数的元素二次惩罚来阻止大权重:
$ R(W)$ = $ \ sum_k \ sum_l W_ {k,l} ^ 2 $
为什么不鼓励大重量?
答案 0 :(得分:1)
你的想法是完全正确的:如果我们有一组等效方程来解决问题,我们通常需要一个系数最小的方程式。
y = x1 + 3 * x2 - 2 * x3
优先于
y = 10 * x1 + 30 * x2 - 20 * x3
即使softmax或其他自然缩放容易处理差异。
这在实践中具有各种优点。较小的数字具有较少的溢出机会。解决方案搜索不会遇到极大或极小的值。非线性关系保持在合理范围内,保持计算精度 - 这在培训初步搜索收敛区域时尤为重要。
这有帮助吗?
答案 1 :(得分:0)
正则化的另一个重要优势(除了伟大的Prune的解释)是它减少了模型/假设的过度拟合。使用正则化成本函数训练的模型在训练集上的表现较差,但会在训练集之外的值上更好地推广。