参数收缩就像L2一样,称为权重衰减。在顺序学习算法中,它鼓励权重值向零衰减,除非数据支持。为什么我们要将重量值设为零?或者举个例子,谢谢!
答案 0 :(得分:0)
假设您有一个房屋价格数据集,其中1000个变量的值均为-1
或+1
。所以一个例子可能是(has_two_bedrooms=+1, is_close_to_highway=+1, has_golden_toilets=-1, has_tree_house=-1, ...)
。现在,您要对房屋的售价是否超过一百万(y=1
)或少于一百万(y=0
)进行分类。您可以使用逻辑回归,然后必须为每个变量设置权重。所以你必须做出判断,无论是has_golden_toilets=+1
是房屋以高价值(高重量)或弱指标(低重量)出售的强有力指标。
现在说你最终只有三个例子has_tree_house=+1
,所有三个房子的售价超过一百万(y=1
)。你会将该变量的权重设置为一个非常高的值吗?可能不是。你更有可能争论类似的事情,这表明has_tree_house=+1
是一个很好的指标,但我们还不确定。因此,让我们将权重设置为中等值。" L2回归就是这样做的,因为它在数学上等同于每个权重使用一个先验,这是正态分布在0左右。所以你对每个权重的期望将是"可能是0,有时是0.25,很少更多比那个"。如果您没有大量数据,那么先前将在您判断体重方面发挥重要作用。在树屋示例的情况下,它将惩罚高值,因为没有足够的数据来支持如此高的值。这可以防止过度拟合数据中的噪音。
您也可以从略微不同的角度来看待它:如果您将权重推向0,那么任何分类都将是相当相等的变量中的多数投票。这减少了一个过度拟合的参数可能造成的损害,因为它对总结果的影响很小。