假设我有一个3层全连接神经网络。我正在实施反向传播算法。我的问题是,应该先计算增量,然后在反向传播完成后更新权重,还是在层反向传播时执行?我已经在互联网教程中看到了这两种方式。
我不确定,因为如果我在反向传播过程中更新权重,我将使用新更新的权重(隐藏到输出权重)来计算隐藏层增量,因此我不确定是否需要这样做。
对不起,如果我使用了错误的术语,这是我的新手并尝试学习。
答案 0 :(得分:0)
经典方法是作为单个操作同时更新所有权重。这可能导致所谓的协方差平移(假设先前层的权重较大,则更新最后一层),但这就是批处理归一化的地方。