我有一个脚本提交了许多作业以在SGE队列上并行运行,另一个收集脚本在完成此作业列表时执行。我正在使用-hold_jid wc_job_list
来保持并行作业运行时收集脚本的执行。
我刚注意到有时一些并行作业失败,收集脚本仍然运行。文档说明:
如果任何引用的作业以退出代码100退出,则提交 工作仍然没有资格执行。
如何捕获并行失败的作业退出状态,以便如果其中任何一个因任何原因失败,收集脚本不会执行或给出错误消息?
答案 0 :(得分:1)
如果是BASH
,您可以解析程序的退出状态(可以引用为$?
),如果不是0
(这是退出状态)对于正常终止),请在作业结束时调用exit 100
。
问题是,您的作业将保留在状态Eqw
的队列中,并且必须手动删除。
更新:对于您设置为Eqw
的每个作业,您的管理员都会收到一封电子邮件...