我正在可视化网络的完全连接部分的偏差和权重。 我看到偏见的变化比权重更频繁,我试图理解它的含义。 在这两种情况下,我都只是权重和偏差并以直方图的形式呈现。
在这里我们看到: 偏差,即1x256参数。 权重是256X512参数的矩阵。
这可能是由于大量数字落在同一容器中而导致可视化中的权重几乎不变的原因?可以更好地可视化体重学习?或其他原因。
答案 0 :(得分:1)
我想这可能是由梯度消失问题引起的。如果您查看反向传播算法,则会看到权重的梯度是通过链规则计算的,例如,类似this:
其中
因此,如果最后一层的输出值非常接近0 ,则权重的梯度也将接近0。因此,权重不会大幅度更新。然而,另一方面,偏置将不会受到该问题的影响,因为该偏置不受反向传播期间的先前层的影响。
如果您不熟悉,可能会在线搜索梯度消失问题的原因。