我最近提交了一份训练工作,其命令如下所示:
gcloud ai-platform jobs submit training foo --region us-west2 --master-image-uri us.gcr.io/bar:latest -- baz qux
(有关此命令的工作原理的更多信息,请访问https://cloud.google.com/ml-engine/docs/training-jobs)
我的代码中存在一个错误,该错误导致作业仅继续运行而不是终止。两周后又花了61美元,我发现了自己的错误并取消了工作。我想确保我不会再犯这种错误。
我正在考虑在训练容器中使用timeout
命令来终止过程,如果它花费的时间太长(通常运行时间约为2或3个小时),但我不信任该容器杀死自己,而是宁愿将GCP配置为在外部将其杀死。
有没有办法做到这一点?
答案 0 :(得分:1)
作为一种解决方法,您可以编写一个小的脚本来运行您的命令,然后休眠所需的时间,直到运行cancel job command。
由于AI平台培训服务中没有超时定义,因此我随心所欲地打开带有功能请求的公开发行,以记录缺少此命令的情况。您可以跟踪PI进度here。
答案 1 :(得分:0)
除了上面提到的脚本,你也可以试试: