标签: machine-learning linear-regression gradient-descent
算法的步长选择可能是什么? 如果我们采用大步长,我们谈论的是梯度下降不收敛,但我不确定算法是否会永远收敛?