应用错误收集

我过去几个月的经历如下： Adam非常容易使用，因为你不必非常熟悉初始学习率，而且它几乎总能奏效。然而，当谈到收敛时，亚当并没有真正满足于解决方案，而是在更高的迭代次数中摇摆不定。虽然SGD给出了几乎完美形状的损失图，并且似乎在更高的迭代中收敛得更好。但是改变设置的litte部分需要调整SGD参数，否则你将最终得到NaN ...对于体系结构和一般方法的实验我赞成Adam，但是如果你想获得一个所选体系结构的最佳版本你应该使用SGD并至少比较解决方案。

我还注意到一个好的初始SGD设置（学习速率，重量衰减等）收敛速度和使用Adam一样快，我的设置很简单。希望这对你们中的一些人有所帮助！

编辑：请注意，即使有亚当，我在初始问题中的效果也是不正常。好像我有一个错误，但我真的不记得那里的问题。

在Tensorflow中使用Adam Optimizer突然增加损失

1 个答案: