详细说明:在什么情况下微调小网络的所有层(比如SqueezeNet)比大网络的最后1或2个卷积层(例如初始V4)的特征提取或微调表现更好?
我的理解是两者所需的计算资源有些可比。我记得在paper中读到极端的选项,即微调90%或10%的网络要比50%的温和要好得多。那么,在进行广泛试验时,默认选择应该是什么呢?
任何过去的实验和对其结果,研究论文或博客的直观描述都会特别有用。感谢。
答案 0 :(得分:2)
我在像SqueezeNet这样的训练模型方面没有太多经验,但我认为仅对大型网络的最后1层或2层进行微调要容易得多:您不必广泛搜索许多最优超参数。通过LR查找器和fast.ai
的循环学习速率,转移学习开箱即用。
如果你想在训练后进行快速推理,那么最好训练SqueezeNet。如果新任务与ImageNet非常不同,也可能是这种情况。
来自http://cs231n.github.io/transfer-learning/
的一些直觉