Question

下面的简单脚本是使用其标题中显示的args启动的。它的行为有所不同，但通常其中一个工作人员挂起并打印这些“CreateSession仍在等待其他任务”消息。为什么新的MonitoredTrainingSession需要其他人？为什么其他人不等待它开始呢？

# #!/bin/bash
# python train.py --job master --task 0 &
# python train.py --job worker --task 0 &
# python train.py --job worker --task 1 &
# python train.py --job worker --task 2 &
import argparse
import tensorflow as tf

parser = argparse.ArgumentParser()
parser.add_argument('--job', type=str)
parser.add_argument('--task', type=int)
args = parser.parse_args()
hosts = {
    "master": [
        "localhost:2222",
    ],
    "worker": [
        "localhost:2223",
        "localhost:2224",
        "localhost:2225",
    ]
}

nworkers = len(hosts['worker'])
cluster = tf.train.ClusterSpec(hosts)
server = tf.train.Server(cluster, job_name=args.job, task_index=args.task)

with tf.device(f'/job:master/task:0'):
    global_step = tf.train.get_or_create_global_step()
    inc_global_step = tf.assign(global_step, global_step + 1)

if args.job == 'worker':
    hooks = [
        tf.train.StopAtStepHook(last_step=4),
    ]
    with tf.train.MonitoredTrainingSession(master=server.target,
                                           is_chief=(args.task == 0),
                                           hooks=hooks) as sess:
        while not sess.should_stop():
            print(args.task, sess.run(inc_global_step))
else:
    server.join()

它可以等待主管启动它的变量。但它恰好等待另一位非首席执行官。那么，MonitoredTrainingSession是否同步任务？如果没有，FIFOQueues是唯一进行手动同步的原语吗？

Answer 1

默认情况下，分布式TensorFlow会话将尝试连接到tf.train.ClusterSpec中指定的所有服务器，并将阻止直到它们响应。这提供了一个有用的屏障，可确保所有工作人员在将控制权返回给用户之前已准备好接收计算请求。这个障碍发生在等待主要初始化变量的MonitoredTrainingSession代码之前。

如果您不希望会话在所有服务器上等待（例如，只等待"/job:ps"中的任务而不是"/job:worker"中的其他任务，这是一种常见的图之间部署策略），最简单的选择是在创建会话时指定“设备过滤器”。设备过滤器是（部分）设备规范的白名单，用于确定tf.Session在启动时将联系的任务。例如，mnist_replica.py测试specifies设备过滤器作为tf.ConfigProto的一部分，用于配置会话。

分布式Tensorflow：CreateSession仍在等待

1 个答案: