标签: gradient-descent
当我执行梯度下降实现时,我看到它对于特定的alpha值和#of迭代值收敛(我认为!)。
但是,保持alpha不变,如果我增加迭代次数,则在高迭代次数下,成本函数会有小幅增加。如果我现在降低alpha值,它看起来又像收敛,但是当我增加#of次迭代时,成本函数似乎又增加了一点。
以下是针对alpha = 0.07和迭代次数= 10000
以下是针对alpha = 0.07和迭代次数= 30000
这是正常现象还是我的实现出现问题?在这两种情况下,我也会保持正则化惩罚不变。