标签: machine-learning gradient-descent
让我们说,在批量梯度下降过程中,要花1000个纪元才能达到模型的90%精度。是否存在一种严格的(甚至是粗略的)关系,可以让我从该信息中推断出,对于某些固定的批次大小N,使用小批量梯度下降法可获得相同的90%精度将花费多少个时期?