标签: python tensorflow keras
当我用角膜训练完全连接的神经网络时,初始mse损失明显随批次大小而增加,而在经过几个时期后,损失收敛到相同值,在我的情况下为0.5。
第一张和第二张图片对应于批处理大小20,第三张和第四张图片对应于批处理大小256。从这些图片可以看出,较大批处理大小的初始损耗也大于10倍,这使我感到困惑,因为在使用相同的默认初始化策略的情况下,批次大小不同时初始损失应该接近。
希望有人可以帮我解释一下,谢谢。