在谷歌云ML上运行GPU的错误符号日志

时间:2017-09-27 09:24:52

标签: google-cloud-platform google-compute-engine google-cloud-ml-engine

我试图在GPU模式下使用google cloud ml。

当我训练BASIC_GPU模式时,我有很多错误日志 但是,它的训练效果很好 我不确定学习是否在GPU模式下工作良好。

这是错误日志历史记录 enter image description here

这是print config.log_device_placement的一部分。
enter image description here

另外,我尝试训练complex_model_m_gpu模式。 我也有像BASIC_GPU这样的错误日志 但是,当我打印config.log_device_placement时,我看不到gpu:/ 1,gpu:/ 2,gpu:/ 3。只有gpu:/ 0我才能看到。

重要的是BASIC_GPU和complex_model_m_gpu的运行时间相同。

我想知道在GPU模式下学习是否很好还是有问题。

对不起我的英语,任何人都知道问题然后帮助我 谢谢。

1 个答案:

答案 0 :(得分:0)

有关如何充分利用GPU的提示,请参阅TensorFlow的performance guide for optimizing for GPUs

有几点需要注意

  • 您可以打开设备放置的日志记录,以查看哪些操作分配给哪些设备。这是一种很好的方法,可以检查操作是否实际分配给GPU,以及当您有多个GPU时使用所有GPU。
  • TensorBoard还应提供有关设备放置的信息,这是另一种检查您是否正在使用所有GPU的方法。
  • 使用多个GPU时,需要确保将操作分配给所有GPU。 TensorFlow guide提供了有关此主题的更多信息。