Vizier超参数调整作业被服务终止

时间:2019-05-27 01:42:59

标签: google-cloud-platform google-cloud-ml

我正在GCP AI平台上运行Vizier HyperParameter Tuning作业,并且试验不断因以下错误而中断:Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.

我正在使用STANDARD_P100 GPU,并且似乎在培训过程中正在从GPU引导(抢占)单个调试试验-有些试验成功完成,有些试验在大约1000或2000个步骤后停止了- -这些总是在1000上发生,这很重要,因为我每1000步进行一次评估,因此在培训和评估之间进行切换时似乎发生了某些事情,这些工作被抢占了。下一个试用版将启动,然后通常再次运行1000个步骤(而不是重新启动上一个试用版)。

我能做些什么使我的审判成功完成?就像VM所说的那样,它们永远不会重新启动,这似乎使整个超参数调整变得毫无价值,因为〜90%的试验从未完成,而失败的试验可能会给vizier优化算法带来错误的信息。这些运行对于在GPU上运行可能是非常昂贵的,并且即使我要为从未完成的试验付费,但按照当前的配置,它们实际上是一文不值的。

下面是我的hptuning_config的示例...

scaleTier: CUSTOM
  masterType: standard_v100
  hyperparameters:
    goal: MAXIMIZE
    hyperparameterMetricTag: 'accuracy'
    maxTrials: 80
    maxParallelTrials: 1
    enableTrialEarlyStopping: TRUE
    params: ...

1 个答案:

答案 0 :(得分:0)

我遇到了同样的问题。我怀疑是因为enableTrialEarlyStopping

https://cloud.google.com/ml-engine/docs/using-hyperparameter-tuning#stopping_trials_early

您必须设置:

enableTrialEarlyStopping: False