如何在套索的背景下轻松解释坐标下降和次梯度解决方案。
直接解释后面的证明将有所帮助。
答案 0 :(得分:4)
假设您有一个多变量函数F(W)
,K
个变量/参数w
(w_1, w_2, w_3, ..., w_k
)。参数是旋钮,目标是以F最小化函数F
的方式更改这些旋钮。坐标下降是一种贪婪的方法,即每次迭代时您都会更改参数w_i
的值以最小化F
。这很容易实现,并且像gradient descent一样,保证在每次迭代时最小化F
并达到局部最小值。
通过Bing图像搜索从互联网借来的图片
如上图所示,函数F
有两个参数x
和y
。在每次迭代时,要么两个参数都被固定值c
更改,并且在新点处评估函数的值。如果该值较高且目标是最小化该函数,则所选参数的更改将相反。然后对第二个参数执行相同的过程。这是算法的一次迭代。
使用坐标下降的一个优点是计算函数梯度很昂贵的问题。
<强>来源强>