系统配置如下:
Ubuntu 16.04, cuda 9.1,
cudnn 7.0.5,
nvidia driver 390.30,
GTX 1050 TI gpu,
tensorflow-gpu 1.7rc1和1.5,
配置文件和train.py是tensorflow分布中的库存,并且 正在使用的训练模型是ssd_mobilenet_v1_coco_2017_11_17。
以下是从putty终端会议中收集的:
警告:tensorflow:来自/home/dennis/models/research/object_detection/trainer.py:228:不推荐使用create_global_step(来自tensorflow.contrib.framework.python.ops.variables),并将在以后的版本中删除。 更新说明: 请切换到tf.train.create_global_step
INFO:tensorflow:框预测值之前的额外转换深度:0
INFO:tensorflow:框预测值之前的额外转换深度:0
INFO:tensorflow:框预测值之前的额外转换深度:0
INFO:tensorflow:框预测值之前的额外转换深度:0
INFO:tensorflow:框预测值之前的额外转换深度:0
INFO:tensorflow:框预测值之前的额外转换深度:0
INFO:tensorflow:摘要名称/ clone_loss是非法的;改为使用clone_loss。
警告:tensorflow:来自/home/dennis/.virtualenvs/od/local/lib/python2.7/site-packages/tensorflow/contrib/slim/python/slim/learning.py:736: init (来自tensorflow.python.training.supervisor)已弃用,将在以后的版本中删除。
更新说明: 请切换到tf.train.MonitoredTrainingSession
2018-03-23 16:59:01.725435:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1355]找到具有属性的设备0:
名称:GeForce GTX 1050 Ti专业:6个未成年人:1个memoryClockRate(GHz):1.455
pciBusID:0000:01:00.0
totalMemory:3.94GiB freeMemory:3.89GiB
2018-03-23 16:59:01.725484:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1434]添加可见的gpu设备:0
2018-03-23 16:59:02.090533:I tensorflow / core / common_runtime / gpu / gpu_device.cc:922]具有强度1边缘矩阵的设备互连StreamExecutor:
2018-03-23 16:59:02.090592:I tensorflow / core / common_runtime / gpu / gpu_device.cc:928] 0
2018-03-23 16:59:02.090601:I tensorflow / core / common_runtime / gpu / gpu_device.cc:941] 0:N
2018-03-23 16:59:02.090801:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1052]创建TensorFlow设备(/ job:localhost / replica:0 / task:0 / device:GPU: 0与3631 MB内存) - >物理GPU(设备:0,名称:GeForce GTX 1050 Ti,pci总线ID:0000:01:00.0,计算能力:6.1)
INFO:tensorflow:从/home/dennis/models/research/ssd_mobilenet_v1_coco_2017_11_17/model.ckpt恢复参数
INFO:tensorflow:运行local_init_op。
INFO:tensorflow:完成运行local_init_op。
INFO:tensorflow:开始会话。
INFO:tensorflow:将检查点保存到路径temp / model.ckpt
INFO:tensorflow:启动队列。
INFO:tensorflow:global_step / sec:0
此时系统崩溃,我必须关闭系统电源然后重新启动(重新启动)。
除了我的训练数据和配置之外,我还使用了Dat Tran的一篇文章中的模型和数据,名为“如何使用Tensorflow的对象检测API训练您的对象检测器”,并得到了相同的结果。
我已经能够运行mnist示例和其他测试,显示tensorflow-gpu正在运行。
我不确定下一步该做什么。我是否可以收集其他信息以帮助进一步诊断问题?
非常感谢任何建议,
由于