我正在使用冻结图提取特征,然后想要在顶部训练预测变量以执行一些推断。
不幸的是,无法计算渐变,并且RAM需求> 100GB时我的进程被杀死。我检查了几件事:
1)减小输入图像大小或批量大小不是问题。
2)我可以使用冻结网络(ResNet的Variant)的中间层,并进行小型推理网络的训练。但是,使用后面的层会导致巨大的内存需求(已杀死)。这使我感到困惑,因为我将网络保持静态,并且ResNet中没有可训练的变量。因此,我认为梯度不应该取决于提取的冷冻网的层数。
这种行为对我来说是意外的。有什么方法可以调试在调用sess.run(train_op,feed_dict)时导致巨大内存需求的原因?
更多信息:
$.getJSON is not a function