标签: deep-learning
我正在读一本关于深度学习的书。关于梯度下降的主题,它指出权重更新可以计算为:
gradient = trainX.T.dot(错误)
trainX是训练集,误差是(preds-trainY),其中preds是模型做出的预测,trainY是标签。
这背后的原因是什么?它仅仅是数据点和错误之间的点积?它如何告诉我们重量所需的更新?