标签: keras
谁能详细解释使用Adam优化器的学习率衰减与将 ReduceLROnPlateau (Keras)与Adam优化器一起使用有何不同/相似之处。 此外,由于Adam是可变学习率算法,因此使用它是否有意义 是 ReduceLROnPlateau 还是其他速率变化技术?
谢谢 赛迪