Tensorflow + LSF。 LSF集群上的分布式张量流

时间:2016-12-19 10:26:09

标签: tensorflow distributed-computing lsf

如何设置tensorflow以使用LSF作业调度程序?我几乎没有LSF的经验。 tf.train.ClusterSpec需要工作人员和参数服务器的IP地址。是否有可能从LSF环境中获取它们?是否有任何使它们一起工作的成功故事?

修改

找到一些解释如何在Slurm群集Running TensorFlow on a Slurm Cluster?上实现类似目标。基本上,我正在寻找类似的东西,但是对于LSF作业调度程序

2 个答案:

答案 0 :(得分:1)

在LSF here上有TensorFlow的博客文章和示例启动脚本。

答案 1 :(得分:0)

你可以在LSF上这样做,但我不推荐它。我建议的是,如果你可以使用Docker并走那条路。 LSF还有一堆其他可能出错的并发症。加上TensorFlow的设计并不完全适用于像LSF这样的系统。

对于我这个特殊问题,Docker Swarm和Compose过去一直运作良好。