如何在ML引擎培训工作中找出SIGSEGV错误的原因?

时间:2018-11-28 10:20:01

标签: python tensorflow sigsegv tensorflow-estimator

我正在ML引擎上训练自定义的tensorflow估计器,并遇到此错误:

The replica master 0 exited with a non-zero status of 11(SIGSEGV)

,唯一的其他错误日志是:

Command '['python3', '-m', 'train_model.train', ... ']' returned non-zero exit status -11

不再有回溯,因此我只需要继续执行此“无效的内存引用或分段错误code”。

此SIGSEGV错误并不总是发生。一些培训作业运行没有问题,另一些则在4小时后引发此错误,而另一些则在15分钟后发生。

我对估算器培训代码的各个部分进行了尝试,尝试尝试并尝试错误的寻找原因的方法,但是没有成功。

我认为11代码可能与Google API中的this error code相对应,并在使用自定义指标时发现了number of people have experienced OutOfSequenceOutOfRange错误估算器EvalSpec,但我认为这不是导致错误的原因,因为我使用的是tf.metric

我正在使用BASIC标度层,查看CPU利用率,它从未超过80%,并且内存利用率图显示了大约25%。

我正在缓存tensorflow数据集,但是当我不缓存数据集时也会收到此错误。运行train_and_evaluate方法和train方法时都会发生错误。

对于在培训工作中如何跟踪此崩溃的路线原因,是否有任何建议?或导致崩溃的一些常见原因是什么?解决方案是否只是使用更大的内存计算机?

0 个答案:

没有答案