使用TensorFlow时,我的模型大小(model.ckpt.data)在优化程序为tf.train.GradientDescentOptimizer
时为88M,但在优化程序更改为tf.train.AdamOptimizer
时变为220M。
为什么会有这么大的差异?
答案 0 :(得分:2)
ADAM为每个可训练参数添加了两个运行方式(梯度和梯度平方)作为附加的非训练参数,这意味着它将总参数的数量增加到三倍。这些不可训练的参数也被保存,因为它们是重新开始学习过程所必需的。这就是模型检查点更大的原因。