Question

我一直在尝试使用自定义数据集训练style-gan2网络。不幸的是，我当前正在运行计算的服务器有些不稳定，经过三天的培训后导致其崩溃。我有什么办法可以使用网络崩溃前的最新快照继续训练网络？我看到过一些有关继续训练网络的参考资料，但是style-gan或style-gan2 github页面均未提及。

Answer 1

在仔细研究代码后，我发现了。原来在training \ training_loop中有一个resume_pkl变量。通过将该变量设置为快照的路径，我想从快照中恢复，从而能够重新开始训练过程。该网络目前已恢复培训，如果遇到任何其他问题，我将在此处再发表评论。

Answer 2

在您的stylegan2-master / results /中查找并找到最新的检查点，诸如：

network-snapshot-005120.pkl

然后您必须在 training_loop.py

中编辑几个变量

插入该检查点pkl文件的完整路径（插入变量“ resume_pkl”）

然后将kimg值（“ 005120”）转换为浮点数，并将其插入resume_kimg。 resume_kimg很重要，因为它需要知道从哪里恢复学习率曲线的事情。

这是面子的样子：

resume_pkl = '/mnt/harddrive/stylegan2encoder-master/results/00012-stylegan2-testexperiment-1gpu-config-f/network-snapshot-005120.pkl',

resume_kimg  = 5120.0,

对于resume_time，我只是将其保留为零，因为我知道它接受了大约100天的培训。

之后

返回并运行用于启动第一个会话的相同命令。

python run_training.py --num-gpus=1 --data-dir=/mnt/harddrive/stylegan2encoder-master/datasets/ --config=config-f --dataset=testexperiment

Answer 3

这里也有请求支持的请求： https://github.com/NVlabs/stylegan2/pull/6

崩溃后继续训练style-gan 2网络

3 个答案: