标签: deep-learning pytorch
optimizer = optim.Adam(model.parameters(), lr=args.lr, weight_decay=1.0) optimizer.zero_grad() loss.backward() optimizer.step()
我用pytorch中的Adam优化器训练模型,并将weight_decay参数设置为1.0。 如果我想比较weight_decay损失和模型损失的数量,如何查看weight_decay引起的损失的价值?
答案 0 :(得分:0)
您熟悉L2正则化吗?如果没有,您可以学习它。我发现这个tutorial非常有用。
L2正则化和权重衰减之间存在细微差别,即:
重量衰减通常定义为直接添加到更新规则中的术语。另一方面,将L2正则化项添加到损失函数中。
您可能会发现tutorial有助于研究体重衰减和L2正则化之间的差异。
[更新] ,我发现吴安德教授的lecture很有帮助。