keras(tensorflow后端)使用Slurm在集群上运行

时间:2018-11-07 05:46:17

标签: python tensorflow keras cluster-computing slurm

我有机会在具有slurm工作负载管理器的群集计算机上运行Tensorflow培训(群集包含近400000个内核,40000 GB RAM,性能为Rmax = 500 TFlop / s和Rpeak = 1000 TFlop / s,AMD GPU)。

我使用深度学习算法从事图像处理项目。

我的问题是如何使用Slurm作为工作负载管理器来扩展我的keras深度学习在该集群上运行?

1 个答案:

答案 0 :(得分:2)

使用Horovod扩展Keras培训-https://github.com/uber/horovod