validation - 为什么在CNN深度培训期间验证性能会有很大波动？

我正在为一个二进制分类问题训练一个深度CNN，并且这些类在训练，验证和测试分区中分配了50％。我缺乏数据，因此使用各种正规化方法（数据增加，丢失，减重，提前停止）。我使用默认参数的优化器 Adagrad 。

来自训练运行的情节如下图所示：

Chart

您可以看到验证准确度在50％（随机猜测）和更接近训练曲线的值之间或之间跳跃。我对任何有关验证性能如此行为的假设感兴趣。

注意：这不是我熟悉的过度拟合的问题，而是一个关于为什么在这种情况下验证性能会出现这种模式波动的问题。