如何设置tensorflow以使用LSF作业调度程序?我几乎没有LSF的经验。 tf.train.ClusterSpec需要工作人员和参数服务器的IP地址。是否有可能从LSF环境中获取它们?是否有任何使它们一起工作的成功故事?
修改
找到一些解释如何在Slurm群集Running TensorFlow on a Slurm Cluster?上实现类似目标。基本上,我正在寻找类似的东西,但是对于LSF作业调度程序
答案 0 :(得分:1)
在LSF here上有TensorFlow的博客文章和示例启动脚本。
答案 1 :(得分:0)
你可以在LSF上这样做,但我不推荐它。我建议的是,如果你可以使用Docker并走那条路。 LSF还有一堆其他可能出错的并发症。加上TensorFlow的设计并不完全适用于像LSF这样的系统。
对于我这个特殊问题,Docker Swarm和Compose过去一直运作良好。