我想在CloudML上分析Tensorflow模型。当我使用tf.RunOptions(trace_level = tf.RunOptions.FULL_TRACE)时,我的进程会以非零退出代码消失,而不会详细说明发生的情况。
我尝试添加和删除打开此选项的代码,此选项与流程的死亡之间存在100%的相关性。
错误消息是'副本主机0退出时的非零状态为250.终止原因:错误。要了解有关您的工作退出原因的更多信息,请查看日志'
如何诊断并解决此问题?
答案 0 :(得分:0)
对于您的问题,退出状态基本上意味着您的代码在运行期间获得了SIGABRT。
更新: 有一个加载libcupti的问题。 Cloud ML Engine发现了一个与之相关的错误。修复正在进行中。该问题将在未来版本中得到解决。
答案 1 :(得分:0)
使用tensorflow 1.1.0而不是1.0.0进行修复。但是,分析信息没有显示出来。