在GPU机器上训练模型时,由于某些系统补丁程序,模型会被中断。由于Google云GPU机器无法进行实时迁移,因此每次发生时都要重新开始培训是一项艰巨的任务。 Google清楚地提到,除了Doc中的机器重启之外,别无他法。
有什么聪明的方法可以检测机器是否重新启动并自动恢复培训。
有时还可能由于某些内核更新而导致CUDA驱动程序停止工作,并且GPU不可见,并且CUDA驱动程序需要重新安装。因此,编写启动脚本以恢复培训也不是防弹方案。
答案 0 :(得分:1)
是的。如果使用tensorflow,则可以使用它的检查点功能来保存进度并在上次中断的地方继续学习。
此处提供了一个很好的示例:https://github.com/GoogleCloudPlatform/ml-on-gcp/blob/master/gce/survival-training/README-tf-estimator.md