我校园中的群集使用PBS TORQUE进行作业管理。
软件中有几个节点已过时。如果我的作业被发送到其中一个节点,它将失败。有没有办法在作业请求中排除特定节点(或节点列表)?
答案 0 :(得分:0)
我不确定您是否可以指定作业可以选择的套装。您可以指定节点列表,但在作业运行之前,您必须等待所有节点都空闲。根据您需要排除的节点数量,您可以执行类似的操作。
cat $PBS_NODEFILE | grep -v badnode1 |grep -v badnode2 > goodnodes
NP=wc -l goodnodes #need back ticks around "wc -l goodnodes"
mpirun -np $NP -machinefile goodnodes ./a.out
如果您以任何方式收取资源费用,这不是理想的选择,但它可以帮助您完成工作。