我正在研究一种简单的模型(MNIST),以分别使用一台参数服务器和一台工作服务器来测试分布式模式。
但是,在训练过程中,似乎突然停止是没有原因的。当我检查MasterSession
类Run()
方法时,发生了一些奇怪的事情。据我所知,有一个变量num_running_
用于对活动的RunStep调用进行计数。
如上所述,我仅使用一台培训服务器进行培训,因此我认为num_running_
的值应为1或0。但是,该值变为大于1。之后,该值变为大于1。 ,培训不执行下一步(重复)。我捕获了这种情况的屏幕截图。我不明白为什么会这样。我可以得到一些建议吗?
(此实验在工作服务器中使用1个nvidia K80 gpu,在ps服务器中使用1个nvidia K80 gpu进行。我使用了Tensorflow r1.3)