我想在GKE上运行Distributed Tensorflow。 您需要从GKE设置中运行Distributed TensorFlow的样本。 你知道一个很好的样本吗?
答案 0 :(得分:2)
OSCON和PyCon最近的一个研讨会(slides)涵盖了(在其他方面)在Kubernetes上运行分布式TensorFlow。有一个GitHub repository包括必要的配置脚本和一个可用于与集群交互的Jupyter笔记本。
有关详细信息,请参阅研讨会,但基本思路是主服务器,每个工作服务器和每个参数服务器在单独的Kubernetes复制控制器中运行,大小为1. Kubernetes为每个进程提供稳定的名称,您可以用于构建tf.train.ClusterSpec
,并互连不同的进程。
还有其他方法可以设置群集,这需要更多配置,但本教程介绍了如何在word2vec模型上设置同步训练。
答案 1 :(得分:0)
如果您想在Google的云平台上运行TensorFlow,则有一个选项是Google Cloud Machine Learning。