是否有可能为神经网络的梯度下降优化算法确定最佳起点?
例如,在下面的链接中查看包含局部AND全局最小值的示例损失曲面,很明显(1)某些起点比其他起点要好,这是因为可以比其他起点更快地达到全局最优点,(2)某些起点将导致下降到本地,而不是全局最优;(3)某些起点可能根本不会收敛。
在此先感谢您的贡献:)
答案 0 :(得分:0)
当前流行的和经过实验验证的初始化技术包括Glorot初始化(http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf?hc_location=ufi)或He初始化(https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf),旨在稳定训练过程。
通过某些随机初始化,可以为网络的行为提供一些新的理论保证:https://arxiv.org/abs/1901.03611
更接近您的问题,最近发现对于某些网络,如果通过SGD进行训练,它将收敛到损耗面的近乎全局最优值:https://arxiv.org/abs/1902.04674
总而言之,尚无一个普遍接受的答案,即深度神经网络的最佳初始化是什么,但是有经验证明“好的”初始化,并且最近有一些理论结果,但这是当前非常活跃的研究领域。