TensorFlow:是否可以恢复多gpu培训的检查点模型?

时间:2017-02-22 09:30:00

标签: python machine-learning tensorflow deep-learning

我目前正在使用主管并构建一个图表,使用TF-slim的预训练重量来执行转移学习。我想知道是否有办法在一开始就将检查点模型恢复到多个推理模型?我主要担心的是,首先,TF存储库中reference code中定义的名称范围可能会导致预先训练的变量由于名称不匹配而无法恢复。另外,鉴于我必须使用一个init_fn的主管只接受一个恢复变量的保护程序,我怎么能有多个保护程序将相同的变量恢复到多个GPU(如果我甚至需要多个储蓄者。)

我的一个想法是,或许我可以将变量恢复到一个图形,让其他GPU使用相同的图形进行训练。但是,下一个GPU的训练是否仅在第一个GPU完成后进行?但是这样,除非我编辑检查点权重的名称,否则我也无法根据原始检查点模型变量名称恢复权重。

1 个答案:

答案 0 :(得分:1)

tensorflow documentation on saving and restoring variables指向保护程序对象,允许您通过passing a dictionary from saved name to variable object when constructing the saver指定哪些保存的变量作为模型变量进行恢复。