我有一个使用Sun Grid Engine在SMP并行环境中运行的作业。此代码使用良好,通常可以正常工作。代码比处理器密集型内存更密集,因此我通常使用-pe smp 12(我们有12个内核/节点)在集群上保留整个节点,即使作业本身(在提交的脚本中指定)仅使用一些分数那个。
因为我请求了SMP并行环境,所有12个插槽应该来自同一节点,并且应该有1个插槽/核心,对吧?因此,这应该保留整个节点。直到最近,它一直很好地用于此目的。另一个用户提交了一个以某种方式在同一节点上获得插槽的作业,最近也使用了网格引擎。我不确定这是怎么发生的。 Grid Engine是否会以少于请求的插槽启动我的SMP作业?如果没有,是否有更好的方法来确保我的工作保留整个节点?
答案 0 :(得分:0)
我明白了。第二个作业被错误地提交到默认的“all”队列,该队列包含所有核心。