Question

我正在GCP AI平台上运行Vizier HyperParameter Tuning作业，并且试验不断因以下错误而中断：Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.

我正在使用STANDARD_P100 GPU，并且似乎在培训过程中正在从GPU引导（抢占）单个调试试验-有些试验成功完成，有些试验在大约1000或2000个步骤后停止了- -这些总是在1000上发生，这很重要，因为我每1000步进行一次评估，因此在培训和评估之间进行切换时似乎发生了某些事情，这些工作被抢占了。下一个试用版将启动，然后通常再次运行1000个步骤（而不是重新启动上一个试用版）。

我能做些什么使我的审判成功完成？就像VM所说的那样，它们永远不会重新启动，这似乎使整个超参数调整变得毫无价值，因为〜90％的试验从未完成，而失败的试验可能会给vizier优化算法带来错误的信息。这些运行对于在GPU上运行可能是非常昂贵的，并且即使我要为从未完成的试验付费，但按照当前的配置，它们实际上是一文不值的。

下面是我的hptuning_config的示例...

scaleTier: CUSTOM
  masterType: standard_v100
  hyperparameters:
    goal: MAXIMIZE
    hyperparameterMetricTag: 'accuracy'
    maxTrials: 80
    maxParallelTrials: 1
    enableTrialEarlyStopping: TRUE
    params: ...

Answer 1

我遇到了同样的问题。我怀疑是因为enableTrialEarlyStopping

https://cloud.google.com/ml-engine/docs/using-hyperparameter-tuning#stopping_trials_early

您必须设置：

enableTrialEarlyStopping: False

Vizier超参数调整作业被服务终止

1 个答案: