在多类逻辑回归中,假设我们使用softmax和交叉熵。
SGD的一个训练示例是否更新了与标签相关的所有权重或仅一部分权重?
例如,标签是一热的[0,0,1]
是否更新了整个矩阵W_{feature_dim \times num_class}
或仅更新了W^{3}_{feature_dim \times 1}
?
由于
答案 0 :(得分:0)
所有权重都会更新。
你有 y = Softmax( W x + β),所以预测 y 在单个 x 中,您正在使用所有W权重。如果在前向传递(预测)期间使用某些内容,则它也会在后向传递(SGD)期间更新。也许更直观的思考方式是你实际上是在预测你的特征的类成员概率;为某些类分配权重意味着从另一个类别中删除权重,因此您需要更新两者。
以 x ∈ℝ, y ∈ℝ 3 的简单情况为例。然后 W ∈ℝ 1×3 。在激活之前,您对某些 x 的预测看起来像: y = [ y 1 = W 11 x + β 1 , y 2 = W 12 x + β 2 , y 3 = W 13 x + β 3 子>]。对于所有这些小型预测都有一个错误信号,来自分类交叉熵,然后您必须计算 W ,β条件的导数。
我希望这很清楚