我写了一个程序,其中包含一种称为分布式随机梯度下降(DRGD)的算法。该算法中有一些内部变量用于计算步长。训练算法应该比DRGD复杂得多,因此应该有更多的内部变量。如果保留这些变量,则可以暂停训练并测试模型。然后,我们将再次恢复培训。
答案 0 :(得分:0)
如果要跨多个设备(GPU或计算机)存储一些数据,则可以使用KVStore。这是the tutorial的使用方法。
请注意,KVStore被认为是一项高级功能,应谨慎使用。
我不确定,但是可能是您在MXNet世界中称为“培训师”的东西实际上可以称为“优化程序”。因此,请考虑同时阅读this API page。
答案 1 :(得分:0)
在使用MXNet Gluon进行培训时,可以通过在.save_states()
类上调用.load_states()
和Trainer
函数来保存培训师的状态并恢复培训。
这里是一个例子:
trainer = gluon.Trainer(net.collect_params(), 'adam')
trainer.save_states('training.states')
trainer.load_states('training.states')