我一直在自己的图像数据集上运行Google的EfficientNet代码,并遇到了以下问题。对于架构的每个变体(b0到b7),训练和验证损失最多减少+/- 100个纪元。之后,两者都开始迅速增加,而验证精度则反之。
我以前从未见过这种模式。我的怀疑是因为过度拟合,但培训损失会不会继续减少吗?
看看其他的问题,this接近我的意思,但我不确定。如果这是一个逐渐消失的梯度问题,那么Google的人们为什么对ImageNet数据没有体验呢?
设置
这已使用EfficientNet tutorial运行。我的数据集包含用于火车的41k图像和用于验证的5k图像。