在Google ML Engine上运行自定义代码培训作业时遇到间歇性问题。该代码正在运行Python TensorFlow分段任务。这是断断续续的,因为当我们第二次运行同一任务时,该工作就成功了。
此间歇性问题反复出现多次(超过30倍)。 我已经使用相同的数据集离线运行了相同的自定义代码,但到目前为止,它们并没有产生相同的错误。
以下是有效载荷错误:
jsonPayload: {
created: 1563475627.0648582
levelname: "CRITICAL"
lineno: 274
message: "Unexpected Event status: 1"
pathname: "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
}
问题是我们如何解决此问题?
答案 0 :(得分:0)
解决此问题的方法是在1.8或更早版本的ML引擎(更早的TensorFlow版本)上运行训练代码。
从那时起,我们没有遇到类似的问题。
答案 1 :(得分:0)
要解决此问题,显然您可以将TF日志记录级别提高为更详细(并在必要时调试日志记录)。
以及,请检查与图形驱动程序有关的任何错误。具体来说,该问题与此topic
有关