我有一个用例,其中我启动多个节点,并且只希望一个节点(我们称其为主节点)能够创建train_op
。 train_op
在此主节点上启动后,其余的其他节点(让它成为从节点)应该能够与传递给它们的图联接(无需它们自己构建)。从本质上讲,一旦主节点创建了训练操作并准备好进行训练循环,这些从节点就应该能够加入主节点,而在其余时间中,从节点应该只轮询主节点。
我现在唯一能做的就是在创建op时让master做一些广播(http或rpc),然后以json格式将模型广播到从节点,然后从节点使用这个json数据来构建图并自己训练op,然后以worker和ps节点的身份加入分布式培训。我没有使用过分布式培训,所以我不知道正确的解决方法。是否有任何我可以通过它轻松实现的Tensorflow API?
编辑:考虑到这个tensorflow example,尤其是在第-行之后,我认为我没有明确指定主要问题-
# Build model...
loss = ...
global_step = tf.contrib.framework.get_or_create_global_step()
如何在工作节点上以某种格式传递损失本身,而不是显式构造整个图?