我有一个名为gpus的gpu资源。当我运行qstat -F gpus时,我得到格式为“qc:gpus = -1”的奇怪输出,因此报告了可用gpus的负数。如果我运行qstat -g c说我有多个GPU可用。多个作业因“不可用的gpus”而失败。这就像GPU的计数从每个节点上的1而不是8开始,所以如果我使用的数量超过1则变为负数。我的队列是:
hostlist node-01 node-02 node-03 node-04 node-05
seq_no 0
load_thresholds NONE
suspend_thresholds NONE
nsuspend 1
suspend_interval 00:05:00
priority 0
min_cpu_interval 00:05:00
processors UNDEFINED
qtype BATCH INTERACTIVE
ckpt_list NONE
pe_list smp mpich2
rerun FALSE
slots 1,[node-01=8],[node-02=8],[node-03=8],[node-04=8],[node-05=8]
有谁知道为什么会这样?
答案 0 :(得分:0)
我相信你设置了#34; gpus"主机配置中的复杂。你可以看到它
qconf -se node-01
你可以查看" gpus"的定义。与
复杂qconf -sc
例如,我的UGE对" ngpus"络合物:
#name shortcut type relop requestable consumable default urgency
ngpus gpu INT <= YES YES 0 1000
示例节点&#34; qconf -se gpu01&#34;: 主机名gpu01.cm.cluster ... complex_values exclusive = true,m_mem_free = 65490.000000M,\ m_mem_free_n0 = 32722.546875M,m_mem_free_n1 = 32768.000000M,\ ngpus = 2,时隙= 16,供应商=英特尔
您可以通过&#34; qconf -me node-01&#34;修改该值。有关详细信息,请参见手册页complex(5)。