小型Tensorflow分布式培训的简单集群管理器?

时间:2018-08-15 03:25:28

标签: tensorflow cluster-computing distributed-computing

我刚刚开始使用Tensorflow进行分布式培训。目前,我在同一台计算机上的不同端口上运行4个进程:

python trainer.py \
   --model models/my_model
   --model_dir model_dir/my_model \
   --train_set data/train.csv \
   --val_set data/val.csv \
   --cluster_spec '{ \
       "environment":"cloud" \
       "cluster":{ \
          "chief": ["localhost:2221"], \
          "worker":["localhost:2222"], \
          "ps":["localhost:2220"] \
       }, \
       "task":{ \
          "type":"chief", \
          "index":0 \
       }, \
     }'

每个过程唯一改变的是--cluster_spec标志的结尾,其中task的值是每个过程的每个角色所特有的。

现在,我正在考虑使用自己家里的三台计算机,而不是在同一台计算机上使用不同的进程。

问题

除了Kubernetes,我可以使用哪些群集管理软件来简化通过WiFi连接的三台不同计算机上的启动和监视这四个过程?理想情况下,对于以前从未进行过自动集群管理的人来说,这将是非常容易的事情。

0 个答案:

没有答案