我正在尝试在Fashion-MNIST数据集上训练和测试lenet-5 CNN。 我使用的是原始的纸面实现,但做了很小的改动(所有conv层都连接到上一层的所有通道和最大池化,而不是平均和正则化,正如我将在后面解释的那样),我的准确率无法超过90%在测试集上,而我觉得我应该得到更多... 我正在测试不同的正则化技术-权重衰减(l2),fc层的落差和批处理归一化,所有这些方法我都得到大致相同的结果(批处理归一化收敛更快,但过度拟合最大)。 我使用了以下优化器: Optimizer = keras.optimizers.SGD(lr = 0.001,衰减= 1e-4,动量= 0.9,Nesterov = True) 我也一直在学习速度,动量和衰减,但结果并没有太大变化。 这些是我得到的收敛图: 没有正则化: No regularization
退出: dropout l2: weight decay 批处理规范: batch normalization 和最终的准确性: final results
我正在使用tensorflow进行训练和测试(我是张量流的新手),我认为我的代码没有什么问题。
有更多经验的人可以解释这个结果是否合理吗?还是我可以尝试以获得更好的结果(并克服这种过度拟合)?
谢谢!