使用自定义代码训练来训练大数据时ML Engine上的间歇性错误

时间:2019-07-19 05:50:25

标签: tensorflow google-cloud-platform google-cloud-ml

在Google ML Engine上运行自定义代码培训作业时遇到间歇性问题。该代码正在运行Python TensorFlow分段任务。这是断断续续的,因为当我们第二次运行同一任务时,该工作就成功了。

此间歇性问题反复出现多次(超过30倍)。 我已经使用相同的数据集离线运行了相同的自定义代码,但到目前为止,它们并没有产生相同的错误。

  

以下是有效载荷错误:

jsonPayload: {
  created:  1563475627.0648582   
  levelname:  "CRITICAL"   
  lineno:  274
  message:  "Unexpected Event status: 1"
  pathname:  "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
 }

问题是我们如何解决此问题?

2 个答案:

答案 0 :(得分:0)

解决此问题的方法是在1.8或更早版本的ML引擎(更早的TensorFlow版本)上运行训练代码。

从那时起,我们没有遇到类似的问题。

答案 1 :(得分:0)

要解决此问题,显然您可以将TF日志记录级别提高为更详细(并在必要时调试日志记录)。

以及,请检查与图形驱动程序有关的任何错误。具体来说,该问题与此topic

有关