许多CNN论文在权重更新中使用随机梯度下降时使用动量= 0.9。使用它有一个很好的逻辑,但是我正在寻找的是对该参数的影响进行彻底的探索。我搜索了许多论文,到处都有一些见解,但是我无法进行全面的探索。而且,它的有用性在不同的计算机视觉任务(如分类,细分,检测)中是否有所不同?
答案 0 :(得分:0)
这里有一篇很好的评论文章,作者:莱斯利·史密斯(Leslie N. Smith),“一种纪律化的神经网络超参数方法:第1部分-学习率,批量大小,动量和重量衰减” https://arxiv.org/pdf/1803.09820.pdf