应用错误收集

在多级逻辑回归中，SGD一个训练样例是否更新了所有权重？

时间：2018-06-18 04:11:50

标签： machine-learning logistic-regression data-science gradient-descent

在多类逻辑回归中，假设我们使用softmax和交叉熵。 SGD的一个训练示例是否更新了与标签相关的所有权重或仅一部分权重？例如，标签是一热的[0,0,1] 是否更新了整个矩阵W_{feature_dim \times num_class}或仅更新了W^{3}_{feature_dim \times 1}？

由于

1 个答案:

答案 0 :(得分：0)

所有权重都会更新。

你有 y = Softmax（ W x + β），所以预测 y 在单个 x 中，您正在使用所有W权重。如果在前向传递（预测）期间使用某些内容，则它也会在后向传递（SGD）期间更新。也许更直观的思考方式是你实际上是在预测你的特征的类成员概率;为某些类分配权重意味着从另一个类别中删除权重，因此您需要更新两者。

以 x ∈ℝ， y ∈ℝ³的简单情况为例。然后 W ∈ℝ^1×3。在激活之前，您对某些 x 的预测看起来像： y = [ y ₁ = W ₁₁ x + β ₁， y ₂ = W ₁₂ x + β ₂， y ₃ = W ₁₃ x + β _{3 ]。对于所有这些小型预测都有一个错误信号，来自分类交叉熵，然后您必须计算 W ，β条件的导数。}

我希望这很清楚