标签: neural-network batchsize
我正在使用预训练的神经网络VGGFace2进行预测。我注意到使用不同的批次大小会得到不同的结果。
我检查了此question,可以理解由于梯度,批次大小会影响训练。但是在进行预测时,没有进行梯度计算,那么为什么要得到不同的解呢?有什么我想念的吗?还是应该获得相同的结果?