坐标下降和子梯度的解释

时间:2016-01-16 00:16:14

标签: machine-learning mathematical-optimization gradient-descent

如何在套索的背景下轻松解释坐标下降和次梯度解决方案。

直接解释后面的证明将有所帮助。

1 个答案:

答案 0 :(得分:4)

假设您有一个多变量函数F(W)K个变量/参数ww_1, w_2, w_3, ..., w_k)。参数是旋钮,目标是以F最小化函数F的方式更改这些旋钮。坐标下降是一种贪婪的方法,即每次迭代时您都会更改参数w_i的值以最小化F。这很容易实现,并且像gradient descent一样,保证在每次迭代时最小化F并达到局部最小值。

enter image description here

通过Bing图像搜索从互联网借来的图片

如上图所示,函数F有两个参数xy。在每次迭代时,要么两个参数都被固定值c更改,并且在新点处评估函数的值。如果该值较高且目标是最小化该函数,则所选参数的更改将相反。然后对第二个参数执行相同的过程。这是算法的一次迭代。

使用坐标下降的一个优点是计算函数梯度很昂贵的问题。

<强>来源