我是分布式TensorFlow的新手。现在,我只是想尝试一些现有的示例,以便我可以学习正确的方法。
我正在按照此处的说明在一台Linux机器上用一名工作人员和一台PS训练初始网络。 https://github.com/tensorflow/models/tree/master/research/inception#how-to-train-from-scratch-in-a-distributed-setting
程序在CreateSession期间挂起,并显示以下消息: CreateSession仍在等待工作者的响应:/ job:ps /副本:0 / task:0
这是我启动工作人员的命令:
./bazel-bin/inception/imagenet_distributed_train \
--batch_size=32 \
--data_dir=/datasets/BigLearning/jinlianw/imagenet_tfrecords/ \
--job_name='worker' \
--task_id=0 \
--ps_hosts='localhost:2222' \
--worker_hosts='localhost:2223'
这是我启动PS的命令:
./bazel-bin/inception/imagenet_distributed_train \
--job_name='ps' \
--task_id=0 \
--ps_hosts='localhost:2222' \
--worker_hosts='localhost:2223'
打印后PS进程挂起:
2018-06-29 21:40:43.097361:我 tensorflow /核心/distributed_runtime/rpc/grpc_server_lib.cc:332] 启动目标服务器:grpc:// localhost:2222
初始模型仍然是分布式TensorFlow的有效示例,还是我做错了什么?
谢谢!
答案 0 :(得分:0)
问题已解决。原来是由于GRPC。我的群集计算机设置了环境变量http_proxy。取消设置此变量即可解决问题。