我刚刚开始使用Tensorflow进行分布式培训。目前,我在同一台计算机上的不同端口上运行4个进程:
python trainer.py \
--model models/my_model
--model_dir model_dir/my_model \
--train_set data/train.csv \
--val_set data/val.csv \
--cluster_spec '{ \
"environment":"cloud" \
"cluster":{ \
"chief": ["localhost:2221"], \
"worker":["localhost:2222"], \
"ps":["localhost:2220"] \
}, \
"task":{ \
"type":"chief", \
"index":0 \
}, \
}'
每个过程唯一改变的是--cluster_spec
标志的结尾,其中task
的值是每个过程的每个角色所特有的。
现在,我正在考虑使用自己家里的三台计算机,而不是在同一台计算机上使用不同的进程。
除了Kubernetes,我可以使用哪些群集管理软件来简化通过WiFi连接的三台不同计算机上的启动和监视这四个过程?理想情况下,对于以前从未进行过自动集群管理的人来说,这将是非常容易的事情。