我试图了解这些Adams Optimizer和Gradient Descent Optimizer之间的区别,以及哪种情况下最适合使用?我正在研究TF网站,但是如果您知道以更好和易于理解的方式解释这些内容的地方,请告诉我?
答案 0 :(得分:0)
AdamOptimizer正在使用Adam Optimizer更新学习率。与梯度下降相比,它是一种自适应方法,对于所有权重更新而言,梯度下降均保持单个学习率,并且学习率不变。
Adam与GradientDescent相比,具有使用梯度(平均值)的运行平均值(动量)以及梯度平方的运行平均值的优势。
没有哪一种更好地使用,这完全取决于您的问题,网络和数据。但总的来说,亚当已证明自己是领导者,并且是DL任务中最常用的工具之一,因为它可以获得更好的结果和准确性指标。