我一直在尝试使用自定义数据集训练style-gan2网络。不幸的是,我当前正在运行计算的服务器有些不稳定,经过三天的培训后导致其崩溃。我有什么办法可以使用网络崩溃前的最新快照继续训练网络?我看到过一些有关继续训练网络的参考资料,但是style-gan或style-gan2 github页面均未提及。
答案 0 :(得分:2)
在仔细研究代码后,我发现了。原来在training \ training_loop中有一个resume_pkl变量。通过将该变量设置为快照的路径,我想从快照中恢复,从而能够重新开始训练过程。该网络目前已恢复培训,如果遇到任何其他问题,我将在此处再发表评论。
答案 1 :(得分:1)
在您的stylegan2-master / results /中查找并找到最新的检查点, 诸如:
network-snapshot-005120.pkl
然后您必须在 training_loop.py
中编辑几个变量插入该检查点pkl文件的完整路径(插入变量“ resume_pkl”)
然后将kimg值(“ 005120”)转换为浮点数,
并将其插入resume_kimg
。 resume_kimg很重要,因为它需要知道从哪里恢复学习率曲线的事情。
这是面子的样子:
resume_pkl = '/mnt/harddrive/stylegan2encoder-master/results/00012-stylegan2-testexperiment-1gpu-config-f/network-snapshot-005120.pkl',
resume_kimg = 5120.0,
对于resume_time
,我只是将其保留为零,因为我知道它接受了大约100天的培训。
之后
返回并运行用于启动第一个会话的相同命令。
python run_training.py --num-gpus=1 --data-dir=/mnt/harddrive/stylegan2encoder-master/datasets/ --config=config-f --dataset=testexperiment
答案 2 :(得分:0)
这里也有请求支持的请求: https://github.com/NVlabs/stylegan2/pull/6