应用错误收集

系统配置如下：

Ubuntu 16.04， cuda 9.1，

cudnn 7.0.5，

nvidia driver 390.30，

GTX 1050 TI gpu，

tensorflow-gpu 1.7rc1和1.5，

配置文件和train.py是tensorflow分布中的库存，并且正在使用的训练模型是ssd_mobilenet_v1_coco_2017_11_17。

以下是从putty终端会议中收集的：

（od）gennis @ AI：〜/ models / research $ ./train_raccoon.sh 警告：tensorflow：来自/home/dennis/.virtualenvs/od/local/lib/python2.7/site-packages/tensorflow/contrib/learn/python/learn/datasets/base.py:198：重试（来自tensorflow。不推荐使用contrib.learn.python.learn.datasets.base），并将在以后的版本中删除。更新说明：使用重试模块或类似的替代方案。

警告：tensorflow：来自/home/dennis/models/research/object_detection/trainer.py:228：不推荐使用create_global_step（来自tensorflow.contrib.framework.python.ops.variables），并将在以后的版本中删除。更新说明：请切换到tf.train.create_global_step

INFO：tensorflow：框预测值之前的额外转换深度：0

INFO：tensorflow：摘要名称/ clone_loss是非法的;改为使用clone_loss。

警告：tensorflow：来自/home/dennis/.virtualenvs/od/local/lib/python2.7/site-packages/tensorflow/contrib/slim/python/slim/learning.py:736： init （来自tensorflow.python.training.supervisor）已弃用，将在以后的版本中删除。

更新说明：请切换到tf.train.MonitoredTrainingSession

2018-03-23 16：59：01.725435：I tensorflow / core / common_runtime / gpu / gpu_device.cc：1355]找到具有属性的设备0：

名称：GeForce GTX 1050 Ti专业：6个未成年人：1个memoryClockRate（GHz）：1.455

pciBusID：0000：01：00.0

totalMemory：3.94GiB freeMemory：3.89GiB

2018-03-23 16：59：01.725484：I tensorflow / core / common_runtime / gpu / gpu_device.cc：1434]添加可见的gpu设备：0

2018-03-23 16：59：02.090533：I tensorflow / core / common_runtime / gpu / gpu_device.cc：922]具有强度1边缘矩阵的设备互连StreamExecutor：

2018-03-23 16：59：02.090592：I tensorflow / core / common_runtime / gpu / gpu_device.cc：928] 0

2018-03-23 16：59：02.090601：I tensorflow / core / common_runtime / gpu / gpu_device.cc：941] 0：N

2018-03-23 16：59：02.090801：I tensorflow / core / common_runtime / gpu / gpu_device.cc：1052]创建TensorFlow设备（/ job：localhost / replica：0 / task：0 / device：GPU： 0与3631 MB内存） - ＆gt;物理GPU（设备：0，名称：GeForce GTX 1050 Ti，pci总线ID：0000：01：00.0，计算能力：6.1）

INFO：tensorflow：从/home/dennis/models/research/ssd_mobilenet_v1_coco_2017_11_17/model.ckpt恢复参数

INFO：tensorflow：运行local_init_op。

INFO：tensorflow：完成运行local_init_op。

INFO：tensorflow：开始会话。

INFO：tensorflow：将检查点保存到路径temp / model.ckpt

INFO：tensorflow：启动队列。

INFO：tensorflow：global_step / sec：0

此时系统崩溃，我必须关闭系统电源然后重新启动（重新启动）。

除了我的训练数据和配置之外，我还使用了Dat Tran的一篇文章中的模型和数据，名为“如何使用Tensorflow的对象检测API训练您的对象检测器”，并得到了相同的结果。

我已经能够运行mnist示例和其他测试，显示tensorflow-gpu正在运行。

我不确定下一步该做什么。我是否可以收集其他信息以帮助进一步诊断问题？

非常感谢任何建议，

由于

在重新训练ssd_mobilenet

0 个答案: