我使用mobilenet模型来训练我的图像。它工作正常。为了提高准确性,我尝试使用faster_rcnn_resnet101_coco模型来复制相同的步骤。我使用的所有步骤都是一样的。当我开始训练课程时,它开始运行大约800步。此时的训练损失约为0.5,这似乎太好了。它在此步骤停止并抛出以下错误:
复制工作者1以非零状态退出1.终止 原因:错误。 Traceback(最近一次调用最后一次):文件 " /usr/lib/python2.7/runpy.py",第174行,在_run_module_as_main中 " main ",fname,loader,pkg_name)文件 " /usr/lib/python2.7/runpy.py",第72行,在_run_code exec代码中 run_globals文件 " /root/.local/lib/python2.7/site-packages/object_detection/train.py" ;, 第163行,在tf.app.run()文件中 " /usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py" ;, 第48行,在run _sys.exit中(main(_sys.argv [:1] + flags_passthrough)) 文件 " /root/.local/lib/python2.7/site-packages/object_detection/train.py" ;, 第159行,在main worker_job_name中,is_chief,FLAGS.train_dir)文件 " /root/.local/lib/python2.7/site-packages/object_detection/trainer.py" ;, 第332行,火车保护程序=保护程序)文件 " /usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py" ;, 763行,火车sess,train_op,global_step,train_step_kwargs) 文件 " /usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py" ;, 第487行,在train_step中运行run_metadata = run_metadata)文件 " /usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py" ;, 第889行,运行run_metadata_ptr)文件 " /usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py" ;, 第1120行,在_run feed_dict_tensor,options,run_metadata)文件中 " /usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py" ;, 第1317行,在_do_run选项中,run_metadata)文件 " /usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py" ;, 第1336行,_do_call引发类型(e)(node_def,op,message) UnavailableError:端点读取失败要了解有关您的原因的更多信息 退出工作请检查日志: https://console.cloud.google.com/logs/viewer?project=341450659208&resource=ml_job%2Fjob_id%2Fobject_detection_188003&advancedFilter=resource.type%3D%22ml_job%22%0Aresource.labels.job_id%3D%22object_detection_188003%22
知道问题可能是什么?非常感谢任何帮助。
答案 0 :(得分:1)
感谢您的反馈。我们仍在调查此问题,请暂时使用1.2运行时版本。