Question

在Google ML Engine上运行自定义代码培训作业时遇到间歇性问题。该代码正在运行Python TensorFlow分段任务。这是断断续续的，因为当我们第二次运行同一任务时，该工作就成功了。

此间歇性问题反复出现多次（超过30倍）。我已经使用相同的数据集离线运行了相同的自定义代码，但到目前为止，它们并没有产生相同的错误。

以下是有效载荷错误：

jsonPayload: {
  created:  1563475627.0648582   
  levelname:  "CRITICAL"   
  lineno:  274
  message:  "Unexpected Event status: 1"
  pathname:  "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
 }

问题是我们如何解决此问题？

Answer 1

解决此问题的方法是在1.8或更早版本的ML引擎（更早的TensorFlow版本）上运行训练代码。

从那时起，我们没有遇到类似的问题。

Answer 2

要解决此问题，显然您可以将TF日志记录级别提高为更详细（并在必要时调试日志记录）。

以及，请检查与图形驱动程序有关的任何错误。具体来说，该问题与此topic

有关

使用自定义代码训练来训练大数据时ML Engine上的间歇性错误

2 个答案: