在CNTK实现的ADAM优化器中,参数alpha,beta1,beta2和epsilon如何与学习速率和动量相关

时间:2016-12-23 18:01:14

标签: deep-learning cntk

我使用adam_sgd optimiser训练神经网络,我无法将函数中的参数与论文中为Adam报告的参数相关联。更具体地说,参数alpha,beta1,beta2和epsilon如何与亚当的CNTK实现中的学习率和动量相关?

1 个答案:

答案 0 :(得分:0)

  • Alpha是learning_rate
  • Beta1是动量参数
  • Beta2是variance_momentum参数