ubuntu创建一个tensorflow工作节点

时间:2017-07-21 15:49:38

标签: ubuntu tensorflow cluster-computing distributed-computing

我在Ubuntu下使用了与python的tensorflow

我读了here关于如何开始使用tensorflow集群,我希望设置另外几台机器来运行tf并创建一个工作集群,并且找不到任何直接的示例来设置如何设置机器作为工作节点。

我应该在独立计算机上进行设置,然后将它们全部绑定到群集中吗? 我应该设置一个集群(如果是,那么请参考一些例子)然后在集群上安装tf作为集群?

编辑: 答案是好的和有资格的,我希望了解tf集群概念将与Beowulf集群同意相互作用的方式,以及我是否需要以任何方式使用Beowulf集群

由于

1 个答案:

答案 0 :(得分:1)

我认为你错过了页面底部关于如何运行tensorflow作为参数服务器或工作者的内容,这里有两个参数服务器和两个工作者。 job_name表示它是参数服务器还是worker,task_index告诉该组中机器的索引:

# On ps0.example.com:
$ python trainer.py \
     --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
     --worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
     --job_name=ps --task_index=0
# On ps1.example.com:
$ python trainer.py \
     --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
     --worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
     --job_name=ps --task_index=1
# On worker0.example.com:
$ python trainer.py \
     --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
     --worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
     --job_name=worker --task_index=0
# On worker1.example.com:
$ python trainer.py \
     --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
     --worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
     --job_name=worker --task_index=1