我正在GCP AI平台上运行Vizier HyperParameter Tuning作业,并且试验不断因以下错误而中断:Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.
我正在使用STANDARD_P100 GPU,并且似乎在培训过程中正在从GPU引导(抢占)单个调试试验-有些试验成功完成,有些试验在大约1000或2000个步骤后停止了- -这些总是在1000上发生,这很重要,因为我每1000步进行一次评估,因此在培训和评估之间进行切换时似乎发生了某些事情,这些工作被抢占了。下一个试用版将启动,然后通常再次运行1000个步骤(而不是重新启动上一个试用版)。
我能做些什么使我的审判成功完成?就像VM所说的那样,它们永远不会重新启动,这似乎使整个超参数调整变得毫无价值,因为〜90%的试验从未完成,而失败的试验可能会给vizier优化算法带来错误的信息。这些运行对于在GPU上运行可能是非常昂贵的,并且即使我要为从未完成的试验付费,但按照当前的配置,它们实际上是一文不值的。
下面是我的hptuning_config的示例...
scaleTier: CUSTOM
masterType: standard_v100
hyperparameters:
goal: MAXIMIZE
hyperparameterMetricTag: 'accuracy'
maxTrials: 80
maxParallelTrials: 1
enableTrialEarlyStopping: TRUE
params: ...
答案 0 :(得分:0)
我遇到了同样的问题。我怀疑是因为enableTrialEarlyStopping
https://cloud.google.com/ml-engine/docs/using-hyperparameter-tuning#stopping_trials_early
您必须设置:
enableTrialEarlyStopping: False