Tensorflow和带扭矩的分布式训练

时间:2017-10-02 05:25:35

标签: tensorflow torque

我根据分布式培训的张量流指南编写了一个神经网络:https://www.tensorflow.org/deploy/distributed

如果集群我想运行使用扭矩进行作业调度和分发的培训,那么它如何适应张量流以及如何在集群上分配培训?

我是否在一个节点上设置了扭矩训练,让张力流从那里分配,或者与扭矩功能发生冲突。如果张量流可以处理分布,那么扭矩是否甚至是必要的?我如何避免两者之间的冲突?

提前致谢。

1 个答案:

答案 0 :(得分:0)

扭矩和分布式张量流负责彼此不直接相关的不同任务。 Torque用于将群集的资源分配给多个作业。在一个工作中,只有相应的请求资源可用。 分布式张量流用于在可用资源(在一个作业内)之间并行化tensorflow任务。

通常你会使用扭矩来获得tensorflow任务所需的所有资源,然后使用分布式tensorflow将任务分配给扭矩提供的资源。

如果使用扭矩提供的资源正确初始化tf.train.ClusterSpec,则不会发生冲突。