标签: python tensorflow keras cluster-computing slurm
我有机会在具有slurm工作负载管理器的群集计算机上运行Tensorflow培训(群集包含近400000个内核,40000 GB RAM,性能为Rmax = 500 TFlop / s和Rpeak = 1000 TFlop / s,AMD GPU)。
我使用深度学习算法从事图像处理项目。
我的问题是如何使用Slurm作为工作负载管理器来扩展我的keras深度学习在该集群上运行?
答案 0 :(得分:2)
使用Horovod扩展Keras培训-https://github.com/uber/horovod