Google CloudML作业失败,“CreateSession仍在等待工作人员的响应”

时间:2017-10-20 18:21:11

标签: tensorflow google-cloud-platform google-cloud-ml

它是断断续续的,看似不确定:完全相同的工作有时会完美地工作,有时它会拖延并打印出数十个这些错误,然后工作,有时它会停滞很长时间,然后死掉。

遇到此问题的其他StackOverflow用户说这是一个糟糕的群集配置(通常是错误的端口#s),但我们没有设置任何群集参数,而是依靠tf.contrib.learn.Experiment来完成所有分发配置。此外,如果它只是一个糟糕的配置,那么它将始终工作,或永远不会工作。

完整错误如下:

  

10:53:28.899 2017-10-20 17:53:28.899466:I tensorflow / core / distributed_runtime / master.cc:209] CreateSession仍在等待来自worker的响应:/ job:ps / replica:0 / task :0

0 个答案:

没有答案