我正在使用预训练的模型,我想添加Elementwise
层,产生两层的输出:一层是卷积层1x1x256x256
的输出,另一层也是输出卷积层1x32x256x256
。我的问题是:如果我们添加元素层以便将两个层相乘并发送到下一层,我们是否应该从头开始训练,因为架构已被修改,或者仍然可以使用pretrained
模型?
由于
答案 0 :(得分:1)
确实,进行架构更改会使学到的功能不一致。
但是,没有理由不将学习的权重用于更改下面的图层 - 这些图层不受更改的影响,因此他们可以从初始化中受益。
至于其他层,我认为来自训练重量的初始值不应该比随机的差,为什么不呢?
不要忘记使用随机权重初始化任何新图层(caffe中的默认值为零 - 这可能会导致学习上的麻烦)。