标签: python keras deep-learning
我知道学习率高而学习率差小(如下图)。
我很困惑,如果我们有时间,为什么我们不仅仅使用很小的学习率,因为小的学习最终可以降到最低。
或者,使用很小的学习率是否有任何弊端? (除了时间花费)