Question

我有一个用例，其中我启动多个节点，并且只希望一个节点（我们称其为主节点）能够创建train_op。 train_op在此主节点上启动后，其余的其他节点（让它成为从节点）应该能够与传递给它们的图联接（无需它们自己构建）。从本质上讲，一旦主节点创建了训练操作并准备好进行训练循环，这些从节点就应该能够加入主节点，而在其余时间中，从节点应该只轮询主节点。

我现在唯一能做的就是在创建op时让master做一些广播（http或rpc），然后以json格式将模型广播到从节点，然后从节点使用这个json数据来构建图并自己训练op，然后以worker和ps节点的身份加入分布式培训。我没有使用过分布式培训，所以我不知道正确的解决方法。是否有任何我可以通过它轻松实现的Tensorflow API？

编辑：考虑到这个tensorflow example，尤其是在第-行之后，我认为我没有明确指定主要问题-

# Build model...
loss = ...
global_step = tf.contrib.framework.get_or_create_global_step()

如何在工作节点上以某种格式传递损失本身，而不是显式构造整个图？

如何在分布式张量流中传递计算图或训练op

0 个答案: