崩溃后继续训练style-gan 2网络

时间:2020-02-28 10:35:01

标签: machine-learning nvidia generative-adversarial-network

我一直在尝试使用自定义数据集训练style-gan2网络。不幸的是,我当前正在运行计算的服务器有些不稳定,经过三天的培训后导致其崩溃。我有什么办法可以使用网络崩溃前的最新快照继续训练网络?我看到过一些有关继续训练网络的参考资料,但是style-gan或style-gan2 github页面均未提及。

3 个答案:

答案 0 :(得分:2)

在仔细研究代码后,我发现了。原来在training \ training_loop中有一个resume_pkl变量。通过将该变量设置为快照的路径,我想从快照中恢复,从而能够重新开始训练过程。该网络目前已恢复培训,如果遇到任何其他问题,我将在此处再发表评论。

答案 1 :(得分:1)

在您的stylegan2-master / results /中查找并找到最新的检查点, 诸如:

network-snapshot-005120.pkl

然后您必须在 training_loop.py

中编辑几个变量

插入该检查点pkl文件的完整路径(插入变量“ resume_pkl”)

然后将kimg值(“ 005120”)转换为浮点数, 并将其插入resume_kimg。 resume_kimg很重要,因为它需要知道从哪里恢复学习率曲线的事情。

这是面子的样子:

resume_pkl = '/mnt/harddrive/stylegan2encoder-master/results/00012-stylegan2-testexperiment-1gpu-config-f/network-snapshot-005120.pkl',

resume_kimg  = 5120.0,

对于resume_time,我只是将其保留为零,因为我知道它接受了大约100天的培训。

之后

返回并运行用于启动第一个会话的相同命令。

python run_training.py --num-gpus=1 --data-dir=/mnt/harddrive/stylegan2encoder-master/datasets/ --config=config-f --dataset=testexperiment

答案 2 :(得分:0)

这里也有请求支持的请求: https://github.com/NVlabs/stylegan2/pull/6