我正在调整代码来训练一个神经网络,该网络可以进行在线培训,以便为小批量工作。重量(de / dw)的小批量梯度是否是小批量样品的梯度之和?或者,由于S形输出函数,它是否是一些非线性函数?或者,它是总和但除以某个数字以使其变小?
澄清:最好更具体地提出这个问题,并询问完整批次渐变和在线渐变之间的关系。因此,见下一段:
我正在使用具有S形激活功能的神经元来对2维空间中的点进行分类。该体系结构为2 x 10 x 10 x 1.有2个输出类:一些点为1,其他为0.误差是(目标 - 输出)的平方的一半。我的问题是,完整的批次梯度是否等于每个样本的梯度之和(整个批次中保持权重不变)?
答案 0 :(得分:2)
这取决于您的确切成本函数,但是当您使用在线模式时,这意味着您的功能在训练样本意义上是附加的,因此最可能的方式(不知道确切的细节)是计算平均梯度。当然,如果你只是总结它们,那将是完全相同的结果,但需要较小的学习率。