作为一项学习练习,我正在使用Kaggle竞赛的ImageNet dataset从头开始训练Inception(v2)模型。我听说有人说他们花了一周左右的时间在GPU上进行训练,才能将该模型收敛到同一数据集中。我目前正在MacBook Pro(单CPU)上对其进行培训,因此我希望它会在一个月左右的时间内收敛。
这里是Inception模型的my implementation。输入的是224x224x3张图片,其值在[0,1]范围内。 学习率设置为静态0.01,我使用的是随机梯度下降优化器。
经过48小时的训练,训练损失似乎表明它是从训练数据中学习的,但是验证损失正在变得越来越严重。通常,这会感觉模型过拟合。看来我的模型或数据集可能有问题,还是因为我只训练了5.8个时期,这是完全可以预期的吗?
1.5个周期后我的训练和验证损失以及准确性。
5.8个纪元后的训练和验证损失以及准确性。
模型看到的一些输入图像,以及早期卷积层之一的输出。