我对在多用户群集环境中提交作业感到非常困惑。我使用带有以下头部的脚本
#BSUB -L /bin/bash
#BSUB -n 10
#BSUB -J jobname
#BSUB -oo log/output.%J
#BSUB -eo log/error.%J
#BSUB -q queue_name
#BSUB -P project_name
#BSUB -R "span[ptile=12]"
#BSUB -W 2:0
mpirun ./someexecutable
在我的意图中,这些作业应该运行在10个处理器(核心)上,并且跨越1个整个节点(因为机器上的每个节点都有12个核心),所以节点完全由我完成,没有其他用户干扰我的节点。我已经明确检查过,看起来我的代码在运行时使用了10个核心。
现在我正在与某人交谈,他们告诉我,通过这种方式,我实际上要求120个核心。我认为这不对,但也许我误解了指示
https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_admin/span_string.html
我可以改用吗?
#BSUB -R "span[hosts=1]"
答案 0 :(得分:1)
在我的意图中,这些作业应该在10个处理器(核心)和1个整个节点上运行
是的,你想使用
#BSUB -n 10
#BSUB -R "span[hosts=1]"
这意味着只将工作放在一台主机上。
并且没有其他用户干扰我的节点
您可以使用
获得对主机的独占访问权限#BSUB -x
FYI。你可以想到
#BSUB -R "span[ptile=x]"
as,在一台主机上最多放置x个插槽。