在重新训练ssd_mobilenet

时间:2018-03-24 01:17:58

标签: tensorflow crash deep-learning

系统配置如下:

Ubuntu 16.04,  cuda 9.1,

cudnn 7.0.5,

nvidia driver 390.30,

GTX 1050 TI gpu,

tensorflow-gpu 1.7rc1和1.5,

配置文件和train.py是tensorflow分布中的库存,并且  正在使用的训练模型是ssd_mobilenet_v1_coco_2017_11_17。

以下是从putty终端会议中收集的:

(od)gennis @ AI:〜/ models / research $ ./train_raccoon.sh 警告:tensorflow:来自/home/dennis/.virtualenvs/od/local/lib/python2.7/site-packages/tensorflow/contrib/learn/python/learn/datasets/base.py:198:重试(来自tensorflow。不推荐使用contrib.learn.python.learn.datasets.base),并将在以后的版本中删除。 更新说明: 使用重试模块或类似的替代方案。

警告:tensorflow:来自/home/dennis/models/research/object_detection/trainer.py:228:不推荐使用create_global_step(来自tensorflow.contrib.framework.python.ops.variables),并将在以后的版本中删除。 更新说明: 请切换到tf.train.create_global_step

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:框预测值之前的额外转换深度:0

INFO:tensorflow:摘要名称/ clone_loss是非法的;改为使用clone_loss。

警告:tensorflow:来自/home/dennis/.virtualenvs/od/local/lib/python2.7/site-packages/tensorflow/contrib/slim/python/slim/learning.py:736: init (来自tensorflow.python.training.supervisor)已弃用,将在以后的版本中删除。

更新说明: 请切换到tf.train.MonitoredTrainingSession

2018-03-23 16:59:01.725435:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1355]找到具有属性的设备0:

名称:GeForce GTX 1050 Ti专业:6个未成年人:1个memoryClockRate(GHz):1.455

pciBusID:0000:01:00.0

totalMemory:3.94GiB freeMemory:3.89GiB

2018-03-23 16:59:01.725484:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1434]添加可见的gpu设备:0

2018-03-23 16:59:02.090533:I tensorflow / core / common_runtime / gpu / gpu_device.cc:922]具有强度1边缘矩阵的设备互连StreamExecutor:

2018-03-23 16:59:02.090592:I tensorflow / core / common_runtime / gpu / gpu_device.cc:928] 0

2018-03-23 16:59:02.090601:I tensorflow / core / common_runtime / gpu / gpu_device.cc:941] 0:N

2018-03-23 16:59:02.090801:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1052]创建TensorFlow设备(/ job:localhost / replica:0 / task:0 / device:GPU: 0与3631 MB内存) - >物理GPU(设备:0,名称:GeForce GTX 1050 Ti,pci总线ID:0000:01:00.0,计算能力:6.1)

INFO:tensorflow:从/home/dennis/models/research/ssd_mobilenet_v1_coco_2017_11_17/model.ckpt恢复参数

INFO:tensorflow:运行local_init_op。

INFO:tensorflow:完成运行local_init_op。

INFO:tensorflow:开始会话。

INFO:tensorflow:将检查点保存到路径temp / model.ckpt

INFO:tensorflow:启动队列。

INFO:tensorflow:global_step / sec:0

此时系统崩溃,我必须关闭系统电源然后重新启动(重新启动)。

除了我的训练数据和配置之外,我还使用了Dat Tran的一篇文章中的模型和数据,名为“如何使用Tensorflow的对象检测API训练您的对象检测器”,并得到了相同的结果。

我已经能够运行mnist示例和其他测试,显示tensorflow-gpu正在运行。

我不确定下一步该做什么。我是否可以收集其他信息以帮助进一步诊断问题?

非常感谢任何建议,

由于

0 个答案:

没有答案