在Google Cloud ML引擎ClusterSpec上运行分布式Tensorflow

时间:2017-07-04 15:22:27

标签: tensorflow tensorflow-serving google-cloud-ml tensorflow-gpu google-cloud-ml-engine

我正在尝试在Google Cloud的ML引擎上运行大型分布式张量流模型,并且无法理解tf.train.ClusterSpec应该发生什么。

在Google Cloud上运行作业时,您可以从BASIC,STANDARD_1,PREMIUM_1,BASIC_GPU或CUSTOM中选择scale tier,每个都可以访问不同类型的群集。但是,我无法在这些群集中找到计算机的名称/地址。

1 个答案:

答案 0 :(得分:0)

请查看文档和示例here。您应该使用环境变量TF_CONFIG设置ClusterSpec; e.g。

  tf_config = os.environ.get('TF_CONFIG')

  # If TF_CONFIG is not available run local
  if not tf_config:
    return run('', True, *args, **kwargs)

  tf_config_json = json.loads(tf_config)
  cluster = tf_config_json.get('cluster')
  ...
  cluster_spec = tf.train.ClusterSpec(cluster)