应用错误收集

我正在研究一种简单的模型（MNIST），以分别使用一台参数服务器和一台工作服务器来测试分布式模式。

但是，在训练过程中，似乎突然停止是没有原因的。当我检查MasterSession类Run()方法时，发生了一些奇怪的事情。据我所知，有一个变量num_running_用于对活动的RunStep调用进行计数。

如上所述，我仅使用一台培训服务器进行培训，因此我认为num_running_的值应为1或0。但是，该值变为大于1。之后，该值变为大于1。，培训不执行下一步（重复）。我捕获了这种情况的屏幕截图。我不明白为什么会这样。我可以得到一些建议吗？

（此实验在工作服务器中使用1个nvidia K80 gpu，在ps服务器中使用1个nvidia K80 gpu进行。我使用了Tensorflow r1.3）