应用错误收集

为什么不同的优化器之间的模型大小差异很大？

时间：2018-02-02 08:04:30

标签： tensorflow neural-network deep-learning

使用TensorFlow时，我的模型大小（model.ckpt.data）在优化程序为tf.train.GradientDescentOptimizer时为88M，但在优化程序更改为tf.train.AdamOptimizer时变为220M。

为什么会有这么大的差异？

1 个答案:

答案 0 :(得分：2)

ADAM为每个可训练参数添加了两个运行方式（梯度和梯度平方）作为附加的非训练参数，这意味着它将总参数的数量增加到三倍。这些不可训练的参数也被保存，因为它们是重新开始学习过程所必需的。这就是模型检查点更大的原因。