使用多GPU训练deeplabv3 +吗?

时间:2018-08-31 10:51:09

标签: tensorflow

我试图使用2 gpu调整由tensorflow提供的预训练模型 所以我将标志设置如下

python train.py --logtostderr
--train_split='train'
--model_variant='xception_65'
--atrous_rates=12
--atrous_rates=24
--atrous_rates=36
--output_stride=8
--decoder_output_stride=4
--train_crop_size=513
--train_crop_size=513
--train_batch_size=2
--training_number_of_steps=20000
--fine_tune_batch_norm=false
--tf_initial_checkpoint="/storage/models-master/research/deeplab/datasets/pascal_voc_seg/init_models/deeplabv3_pascal_train_aug/model.ckpt" --train_logdir="/storage/models-master/research/deeplab/datasets/pascal_voc_seg/exp/train_on_train_set/train/0831_2"
--dataset_dir="/storage/models-master/research/deeplab/datasets/pascal_voc_seg/tfrecord"
--image_pyramid=0.5
--image_pyramid=0.25
--image_pyramid=1.75
--num_replicas=1
--num_clones=2
--num_ps_tasks=1

但是我收到如下错误消息

无法为操作“ parallel_read / filenames / Greater”分配设备:已将操作显式分配给/ job:worker / device:CPU:0,但可用设备为[/ job:localhost / replica:0 / task :0 /设备:CPU:0,/作业:本地主机/副本:0 /任务:0 /设备:GPU:0,/作业:本地主机/副本:0 /任务:0 /设备:GPU:1]。确保设备规格引用的是有效设备。 [[节点:parallel_read / filenames / Greater = Greater [T = DT_INT32,_device =“ / job:worker / device:CPU:0”](parallel_read / filenames / Size,parallel_read / filenames / Greater / y)]]

似乎已为操作分配了'/ job:worker / device:CPU:0',但是我的设置是2 gpus,我怎么能解决这个问题?

0 个答案:

没有答案