我对Google Cloud ML有点新意,并且难以将分布式培训适应模型。我尝试使用Standard_1 Scale Tier通过自定义训练集在Google Cloud ML上训练Google's DeepLabv3+,并传入描述群集的TF_CONFIG
值。
它在本地工作正常,但它当然需要永远,因为它只是一台笔记本电脑。根据{{3}},我应该能够使用TF_CONFIG
变量来设置分布式培训工作。在this中,有一些参数可以讨论分布式培训,但它似乎与我见过的任何其他分布式培训文档(即使用tf.train.ClusterSpec
)相匹配。 / p>
有人可以为我推动正确的方向吗?谢谢!
答案 0 :(得分:0)
如果您是Google Cloud ML的新手,建议您首先遵循official tutorial in github进行Google Cloud ML,以观察在本地运行或使用ML Engine之间的差异。
然后,看看this documentation中提到的--scale-tier
命令,该命令用于运行分布式训练。谨记,您可以从执行distributed training operations的一些成本中获利。