在tensorflow分布式模式下,以每秒1 ps的速度运行有些奇怪-一位工人

时间:2018-08-18 05:15:19

标签: tensorflow distributed-computing distributed-system

我正在研究一种简单的模型(MNIST),以分别使用一台参数服务器和一台工作服务器来测试分布式模式。

但是,在训练过程中,似乎突然停止是没有原因的。当我检查MasterSessionRun()方法时,发生了一些奇怪的事情。据我所知,有一个变量num_running_用于对活动的RunStep调用进行计数。

如上所述,我仅使用一台培训服务器进行培训,因此我认为num_running_的值应为1或0。但是,该值变为大于1。之后,该值变为大于1。 ,培训不执行下一步(重复)。我捕获了这种情况的屏幕截图。我不明白为什么会这样。我可以得到一些建议吗?

(此实验在工作服务器中使用1个nvidia K80 gpu,在ps服务器中使用1个nvidia K80 gpu进行。我使用了Tensorflow r1.3)

enter image description here

0 个答案:

没有答案