标签: gradient-descent chainer
大家。我对梯度下降的实现有疑问。我找到了几个优化器,比如ada_grad,adam,sgd等等,它们都很完美。但我正在尝试实施具有固定学习率的天真梯度方法批量梯度下降,并对每个批次中的整个示例起作用。怎么做?等待你的帮助。非常感谢。
答案 0 :(得分:0)
如何使用足够大的批量大小和SGD?它相当于简单的梯度下降法。