Question

我正在阅读有关正规化的from this link，我无法理解如何将这一特定概念与惩罚相关联。

我们在上面介绍的损失功能有一个错误。假设我们有一个数据集和一组参数W，它们正确地对每个例子进行分类（即所有分数都满足所有余量，并且所有i的Li = 0Li = 0）。问题是这组W不一定是唯一的：可能有许多类似的W正确地对示例进行分类。一个简单的方法是，如果某些参数W正确地对所有示例进行分类（因此每个示例的损失为零），那么这些参数λW中的任何倍数，其中λ> 1也将给出零损失，因为该变换均匀地拉伸所有分数量级因此也是他们的绝对差异。

我猜我可以把它想象成乘以2D中的直线方程的系数并且尽管乘以系数仍然满足方程。或者有更好的方式来考虑它吗？

例如，如果正确的类和最近的不正确的类之间的分数差异为15，那么将W的所有元素乘以2将使新差异为30。

换句话说，我们希望对某些权重W的某些偏好进行编码，以消除这种歧义。＆GT;

我不明白这句话。我是否理解需要一组独特的权重/参数（但为什么？）？

我们可以通过用正则化惩罚R（W）扩展损失函数来实现。最常见的正则化惩罚是L2范数，它通过对所有参数的元素二次惩罚来阻止大权重：

$ R（W）$ = $ \ sum_k \ sum_l W_ {k，l} ^ 2 $

为什么不鼓励大重量？

Answer 1

你的想法是完全正确的：如果我们有一组等效方程来解决问题，我们通常需要一个系数最小的方程式。

y = x1 + 3 * x2 - 2 * x3

优先于

y = 10 * x1 + 30 * x2 - 20 * x3

即使softmax或其他自然缩放容易处理差异。

这在实践中具有各种优点。较小的数字具有较少的溢出机会。解决方案搜索不会遇到极大或极小的值。非线性关系保持在合理范围内，保持计算精度 - 这在培训初步搜索收敛区域时尤为重要。

这有帮助吗？

Answer 2

正则化的另一个重要优势（除了伟大的Prune的解释）是它减少了模型/假设的过度拟合。使用正则化成本函数训练的模型在训练集上的表现较差，但会在训练集之外的值上更好地推广。

更简单/替代的理解正规化的方法

2 个答案: