如何在AWS集群上运行TensorFlow?

时间:2016-07-13 21:44:22

标签: python amazon-web-services amazon-ec2 tensorflow

我正在尝试在EMR / EC2集群上运行分布式tensorflow,但我不知道如何在集群中指定不同的实例来运行部分代码。

在文档中,他们使用tf.device("/gpu:0")来指定gpu。但是如果我在EMR集群中运行主CPU和5个不同的从GPU实例并且我想指定那些GPU来运行某些代码呢?我无法使用实例的公有DNS名称输入tf.device(),因为它会抛出一个错误,指出名称无法解析。

1 个答案:

答案 0 :(得分:0)

自您提出问题以来,AWS已发布一些代码以简化在EC2群集上使用分布式TensorFlow的过程。

github repository。 README.md中描述了所有内容,但简短的说法是,它将使用

创建一个AWS栈
  • 安全组
  • 弹性文件系统
  • 带有AWS deeplearning AMI和EFS的EC2实例,
  • 将配置EC2实例,以便您可以通过在主节点上运行命令轻松运行分布式tensorflow运行(请参阅TensorFlow上的Running Distributed Training部分)。