在多级逻辑回归中,SGD一个训练样例是否更新了所有权重?

时间:2018-06-18 04:11:50

标签: machine-learning logistic-regression data-science gradient-descent

在多类逻辑回归中,假设我们使用softmax和交叉熵。 SGD的一个训练示例是否更新了与标签相关的所有权重或仅一部分权重? 例如,标签是一热的[0,0,1] 是否更新了整个矩阵W_{feature_dim \times num_class}或仅更新了W^{3}_{feature_dim \times 1}

由于

1 个答案:

答案 0 :(得分:0)

所有权重都会更新。

你有 y = Softmax( W x + β),所以预测 y 在单个 x 中,您正在使用所有W权重。如果在前向传递(预测)期间使用某些内容,则它也会在后向传递(SGD)期间更新。也许更直观的思考方式是你实际上是在预测你的特征的类成员概率;为某些类分配权重意味着从另一个类别中删除权重,因此您需要更新两者。

x ∈ℝ, y ∈ℝ 3 的简单情况为例。然后 W ∈ℝ 1×3 。在激活之前,您对某些 x 的预测看起来像: y = [ y 1 = W 11 x + β 1 y 2 = W 12 x + β 2 y 3 = W 13 x + β 3 ]。对于所有这些小型预测都有一个错误信号,来自分类交叉熵,然后您必须计算 W β条件的导数。

我希望这很清楚