为什么在keras训练中初始mse随着批次大小而增加

时间:2020-07-02 13:15:49

标签: python tensorflow keras

当我用角膜训练完全连接的神经网络时,初始mse损失明显随批次大小而增加,而在经过几个时期后,损失收敛到相同值,在我的情况下为0.5。

第一张和第二张图片对应于批处理大小20,第三张和第四张图片对应于批处理大小256。从这些图片可以看出,较大批处理大小的初始损耗也大于10倍,这使我感到困惑,因为在使用相同的默认初始化策略的情况下,批次大小不同时初始损失应该接近。

希望有人可以帮我解释一下,谢谢。

Initial loss for batch size 20

Convergence loss for batch size 20

Initial loss for batch size 256

Convergence loss for batch size 256

0 个答案:

没有答案