我正在尝试使用我自己的数据集上的keras(类数= 4)训练一个带有Inception-v3架构的快速RCNN网络(参考文件:Google's paper)作为我的固定特征提取器,这是非常不同的与Image-net相比。我仍然用Image-net权重初始化它,因为这个paper给出的证据表明,与随机初始化相比,使用预训练权重进行初始化总是更好。
经过60个时代的训练,我的训练准确率为96%,我的验证准确率为84%,过度训练! (可能很严重?)但更令人担忧的是,我的损失根本没有收敛。在测试网络后,它失败了!比如,它甚至都没有发现。
然后我采取了略微不同的方法。我做了两步训练。首先,我在我的数据集上训练了Inception-v3,就像分类问题一样(用Image-net权重进行初始化),它收敛得很好。然后我使用这些权重来初始化Faster-RCNN网络。这有效!但是,我很困惑为什么这两个阶段的方法有效但从头开始训练并不起作用。鉴于我最初使用预先训练的图像净重量初始化了这两种方法。
有没有办法从头开始训练更快的RCNN?