标签: neural-network keras gradients
我已经搜索了很多关于如何计算使用多层感知器时Keras中小批量的渐变,但似乎无法找到答案。我想知道每个小批量的梯度的平均值是用于更新权重和偏差,还是它是梯度的总和?
如果有人可以提供帮助,如果他们知道答案,并且有可能告诉我在哪里可以找到这些信息,我将不胜感激。
答案 0 :(得分:1)
我认为有必要说出损失的平均值或损失的总和,而不是平均值/梯度的总和。 而且我认为使用平均损耗计算梯度总是安全的。