如何等待所有工作人员在分布式张量流中完成?

时间:2016-12-19 11:09:51

标签: tensorflow

在分布式张量流中,我使用SyncReplicasOptimizerV2来聚合和更新渐变,但当其中一名普通工人(大多数时候是首席工作人员)训练结束时,另一名普通工人将被绞死。我该如何解决这个问题。

操作系统:Ubuntu 14.04

tensorflow版本:0.12.0-rc1

我的代码在这里:https://github.com/xiaop1987/tf_distribute_lr

----------------------------- Update 1 ------------ 2016-12- 20 -------------

我应用同步队列,因为Yaroslav Bulatov建议,现在我可以成功停止ParameterServer,但是其他工作人员仍然挂在那里,调用堆栈如下:

enter image description here

0 个答案:

没有答案