梯度下降算法如下:
(摘自Andres NG coursera课程) 如果有超过2个θ参数(特征权重),该如何实现该算法?
是否应包括额外的theta值:
并重复直到收敛,换句话说,直到theta0,theta1,theta2不再变化?
答案 0 :(得分:1)
也许将theta转换为矩阵表示法
big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X .
Andrew Ng的表示法是向那些对矩阵符号不太满意的人说清楚 - 我怀疑这包括你自己。 -
矩阵公式 - 单个方程而不是许多公式 - 可能比OP中的连续/单独描述的方程更清晰。单矩阵公式表明,有效地更新是设计矩阵中所有向量的原子操作。底层线性代数库的责任是使"发生" 。