在tensorflow / keras中使用ADAM作为优化器时,真的有必要优化初始学习率吗?如何做到(在tensorflow 2.x中)?
答案 0 :(得分:1)
是的。像任何hyperparameter一样,应该寻找最佳学习率。即使学习率太大或太小,即使使用像ADAM这样的优化器(在衰减等方面都有很好的特性),学习模型也可能无法学习。
在本文How to pick the best learning rate for your machine learning project
中可以看到ADAM优化器下的模型关于学习率的行为示例。寻找正确的超参数称为超参数调整。我没有在项目中使用TF 2. *,因此我将参考TensorFlow本身提供的Hyperparameter Tuning with the HParams Dashboard