标签: machine-learning neural-network deep-learning backpropagation gradient-descent
所以我试图了解渐变下降,我感到困惑。如果您有抛物线,那是在改变体重时会造成的损失。为什么不轻松地找到抛物线的顶点,而不是在x处获取导数?
答案 0 :(得分:2)
可以。如果损失函数实际上是抛物线(或其他方便的凸函数),则可以。但是损失函数很可能是非凸的且非常复杂,并且您不知道它是先验的。因此,我们采用梯度下降的方式-不断采样。当您看到方便的抛物线时,这只是一个简化的图示。