应用错误收集

当我用角膜训练完全连接的神经网络时，初始mse损失明显随批次大小而增加，而在经过几个时期后，损失收敛到相同值，在我的情况下为0.5。

第一张和第二张图片对应于批处理大小20，第三张和第四张图片对应于批处理大小256。从这些图片可以看出，较大批处理大小的初始损耗也大于10倍，这使我感到困惑，因为在使用相同的默认初始化策略的情况下，批次大小不同时初始损失应该接近。

希望有人可以帮我解释一下，谢谢。

Initial loss for batch size 20

Convergence loss for batch size 20

Initial loss for batch size 256

Convergence loss for batch size 256