如何为分布式Tensorflow创建分布式集群环境?

时间:2018-11-27 02:43:29

标签: tensorflow tensorflow-serving

我已经阅读了Tensorflow分布式环境的文档,但是我找不到任何地方如何设置适合Tensorflow的集群。

目前我有10台服务器要开始训练模型,但是我想知道除tensorflow库外,我需要在所有群集服务器上安装的依赖项。

OR

如果我在编写的python代码中使用工人和参数服务器的IP地址为分布式培训编写了集群规范,就足够了吗?还是我缺少什么?

tf.train.ClusterSpec({
"worker": [
    "172.09.09.09:1290",
    "172.10.10.10:2040",
    "172.11.11.11:3060"
],
"ps": [
    "172.12.12.12:8080",
    "172.13.13.13:8080"
]})

我可以在tensorflow文档中找到其他所有内容。我应该建立一个类似于Apache Spark的集群吗?

请为张量流群集的正确记录的安装流程提供帮助,或者如果我缺少某些内容,可以通过简单的答案为我提供帮助。

2 个答案:

答案 0 :(得分:0)

也许您可以创建一个集群并在其上安装Cloudera Manager,然后可以尝试在其上安装tensorflow库并使用Spark对您的数据执行操作:

https://www.cloudera.com/documentation/enterprise/5-9-x/topics/install_cluster_template.html

有了集群后,您就可以像开始时一样在Hadoop上运行tensorflow:

https://www.tensorflow.org/deploy/hadoop

答案 1 :(得分:-1)

您只需要在每台服务器上运行一个脚本即可。使用相同的代码。每个脚本都会获取一些输入作为设置自身的参数。您可以在这里查看:https://github.com/tensorflow/examples/blob/master/community/en/docs/deploy/distributed.md

相关问题