SGE hold_jid并捕获失败的工作

时间:2013-09-18 14:35:44

标签: sungridengine

我有一个脚本提交了许多作业以在SGE队列上并行运行,另一个收集脚本在完成此作业列表时执行。我正在使用-hold_jid wc_job_list来保持并行作业运行时收集脚本的执行。

我刚注意到有时一些并行作业失败,收集脚本仍然运行。文档说明:

  

如果任何引用的作业以退出代码100退出,则提交   工作仍然没有资格执行。

如何捕获并行失败的作业退出状态,以便如果其中任何一个因任何原因失败,收集脚本不会执行或给出错误消息?

1 个答案:

答案 0 :(得分:1)

如果是BASH,您可以解析程序的退出状态(可以引用为$?),如果不是0(这是退出状态)对于正常终止),请在作业结束时调用exit 100

问题是,您的作业将保留在状态Eqw的队列中,并且必须手动删除。

更新:对于您设置为Eqw的每个作业,您的管理员都会收到一封电子邮件...