应用错误收集

时间：2018-05-17 20:41:31

标签： tensorflow google-cloud-ml

我对Google Cloud ML有点新意，并且难以将分布式培训适应模型。我尝试使用Standard_1 Scale Tier通过自定义训练集在Google Cloud ML上训练Google's DeepLabv3+，并传入描述群集的TF_CONFIG值。

它在本地工作正常，但它当然需要永远，因为它只是一台笔记本电脑。根据{{3}}，我应该能够使用TF_CONFIG变量来设置分布式培训工作。在this中，有一些参数可以讨论分布式培训，但它似乎与我见过的任何其他分布式培训文档（即使用tf.train.ClusterSpec）相匹配。 / p>

有人可以为我推动正确的方向吗？谢谢！

答案 0 :(得分：0)

如果您是Google Cloud ML的新手，建议您首先遵循official tutorial in github进行Google Cloud ML，以观察在本地运行或使用ML Engine之间的差异。

然后，看看this documentation中提到的--scale-tier命令，该命令用于运行分布式训练。谨记，您可以从执行distributed training operations的一些成本中获利。