如果我考虑一个数据集,那么对于相同的损失函数和相同的优化程序,哪种正则化技术(L1正则化或L2正则化)将输出最高的稀疏权重?
答案 0 :(得分:0)
根据定义,L1正则化(套索)将某些权重强制为零,从而导致稀疏解;根据{{3}}上的Wikipedia条目:
可以证明L1规范会导致稀疏性
另请参阅Towards Data Science上的regularization帖子:
这两种技术之间的关键区别是,套索将次要特征的系数缩小为零,从而完全删除了一些特征。因此,如果我们具有大量功能,这对于功能选择非常适用。
有关更多详细信息,请参见以下交叉验证的线程: