分布式培训DeepLabv3 +与Google Cloud ML

时间:2018-05-17 20:41:31

标签: tensorflow google-cloud-ml

我对Google Cloud ML有点新意,并且难以将分布式培训适应模型。我尝试使用Standard_1 Scale Tier通过自定义训练集在Google Cloud ML上训练Google's DeepLabv3+,并传入描述群集的TF_CONFIG值。

它在本地工作正常,但它当然需要永远,因为它只是一台笔记本电脑。根据{{​​3}},我应该能够使用TF_CONFIG变量来设置分布式培训工作。在this中,有一些参数可以讨论分布式培训,但它似乎与我见过的任何其他分布式培训文档(即使用tf.train.ClusterSpec)相匹配。 / p>

有人可以为我推动正确的方向吗?谢谢!

1 个答案:

答案 0 :(得分:0)

如果您是Google Cloud ML的新手,建议您首先遵循official tutorial in github进行Google Cloud ML,以观察在本地运行或使用ML Engine之间的差异。

然后,看看this documentation中提到的--scale-tier命令,该命令用于运行分布式训练。谨记,您可以从执行distributed training operations的一些成本中获利。