标签: python tensorflow deep-learning conv-neural-network
我正在训练几个用于分段的网络以及完全卷积的体系结构和U-Net的工作原理。 但是,当我在训练快要结束时用基于Dice的损失函数训练V-Net时,经常会遇到问题,即网络“突然忘记了一切”,权重变为NAN。 我确保骰子损失本身不会产生NAN,并且在其他架构中也不会发生。 所以我猜这是梯度爆炸的情况吗? V-Net架构中是否有任何因素可能导致这种行为? 热门图表:每次迭代的L2正则化器 下图:每次迭代的加权骰子损失