我正在使用带有GPU的云服务器来训练我的模型。
我运行的命令就像:
me@cloud-host$ python3 legacy/train.py --logtostderr --train_dir=training/ --pipeline_config_path=training/ssd_mobilenet_v1_pets.config
但是我使用的是ssh,它依赖于网络连接。如果我的ssh断开了怎么办?那我的训练过程就中断了,对吧?
在服务器上运行Tensorflow训练的正确方法是什么? (我知道诸如nohup
这样的骇人听闻的方式可用于其他长时间运行的过程。但这是最好的方式吗?Jupyter笔记本可以在训练命令之上运行吗?)