在分布式张量流中,我使用SyncReplicasOptimizerV2来聚合和更新渐变,但当其中一名普通工人(大多数时候是首席工作人员)训练结束时,另一名普通工人将被绞死。我该如何解决这个问题。
操作系统:Ubuntu 14.04
tensorflow版本:0.12.0-rc1
我的代码在这里:https://github.com/xiaop1987/tf_distribute_lr
----------------------------- Update 1 ------------ 2016-12- 20 -------------
我应用同步队列,因为Yaroslav Bulatov建议,现在我可以成功停止ParameterServer,但是其他工作人员仍然挂在那里,调用堆栈如下: