分布式TensorFlow在CreateSession期间挂起

时间:2018-06-30 03:56:30

标签: tensorflow distributed

我是分布式TensorFlow的新手。现在,我只是想尝试一些现有的示例,以便我可以学习正确的方法。

我正在按照此处的说明在一台Linux机器上用一名工作人员和一台PS训练初始网络。 https://github.com/tensorflow/models/tree/master/research/inception#how-to-train-from-scratch-in-a-distributed-setting

程序在CreateSession期间挂起,并显示以下消息: CreateSession仍在等待工作者的响应:/ job:ps /副本:0 / task:0

这是我启动工作人员的命令:

./bazel-bin/inception/imagenet_distributed_train \
    --batch_size=32 \
    --data_dir=/datasets/BigLearning/jinlianw/imagenet_tfrecords/ \
    --job_name='worker' \
    --task_id=0 \
    --ps_hosts='localhost:2222' \
    --worker_hosts='localhost:2223'

这是我启动PS的命令:

./bazel-bin/inception/imagenet_distributed_train \
    --job_name='ps' \
    --task_id=0 \
    --ps_hosts='localhost:2222' \
    --worker_hosts='localhost:2223'

打印后PS进程挂起:

  

2018-06-29 21:40:43.097361:我   tensorflow /核心/distributed_runtime/rpc/grpc_server_lib.cc:332]   启动目标服务器:grpc:// localhost:2222

初始模型仍然是分布式TensorFlow的有效示例,还是我做错了什么?

谢谢!

1 个答案:

答案 0 :(得分:0)

问题已解决。原来是由于GRPC。我的群集计算机设置了环境变量http_proxy。取消设置此变量即可解决问题。