在使用反向传播训练多层神经网络时,每次迭代都会更新所有层的权重。
我在考虑是否要随机选择任何一层并仅在每次反向传播迭代中更新该层的权重。
这将如何影响培训时间?模型性能(模型的泛化能力)会受到这种训练吗?
我的直觉是泛化能力将相同,培训时间将减少。如果我错了,请纠正。
答案 0 :(得分:1)
您的直觉是错误的。您所建议的是块协调下降,并且如果不相关联的梯度执行类似的操作是有意义的,那么在这种情况下这样做是没有意义的。
为此,NNs中的问题是,由于链式规则,您可以免费获得先前图层的渐变,而计算任何单个图层的渐变。因此,您只是无缘无故地丢弃此信息。