machine-learning - 重量衰减或参数收缩

假设您有一个房屋价格数据集，其中1000个变量的值均为-1或+1。所以一个例子可能是(has_two_bedrooms=+1, is_close_to_highway=+1, has_golden_toilets=-1, has_tree_house=-1, ...)。现在，您要对房屋的售价是否超过一百万（y=1）或少于一百万（y=0）进行分类。您可以使用逻辑回归，然后必须为每个变量设置权重。所以你必须做出判断，无论是has_golden_toilets=+1是房屋以高价值（高重量）或弱指标（低重量）出售的强有力指标。

现在说你最终只有三个例子has_tree_house=+1，所有三个房子的售价超过一百万（y=1）。你会将该变量的权重设置为一个非常高的值吗？可能不是。你更有可能争论类似的事情，这表明has_tree_house=+1是一个很好的指标，但我们还不确定。因此，让我们将权重设置为中等值。＆＃34; L2回归就是这样做的，因为它在数学上等同于每个权重使用一个先验，这是正态分布在0左右。所以你对每个权重的期望将是＆＃34;可能是0，有时是0.25，很少更多比那个＆＃34;。如果您没有大量数据，那么先前将在您判断体重方面发挥重要作用。在树屋示例的情况下，它将惩罚高值，因为没有足够的数据来支持如此高的值。这可以防止过度拟合数据中的噪音。

您也可以从略微不同的角度来看待它：如果您将权重推向0，那么任何分类都将是相当相等的变量中的多数投票。这减少了一个过度拟合的参数可能造成的损害，因为它对总结果的影响很小。

重量衰减或参数收缩

1 个答案: