如何测试我的任何HTCondor作业是否返回了非零错误代码?

时间:2017-09-19 07:47:33

标签: condor

我有一个运行condor_submit的脚本,用于一批25个作业,condor_wait为他们全部完成,然后另一个condor_submit用于另一批25个作业。

我想确保前25个作业中没有Normal termination (return value 127)失败(任何非零返回值)。

我怎样才能轻松做到这一点? 或者,如果这是不可能的,我也愿意将我的作业可执行文件包装在脚本中,以防万一它们返回非零 - 但我不知道如何使HTCondor作业失败!

2 个答案:

答案 0 :(得分:1)

您可以使用condor_history http://research.cs.wisc.edu/htcondor/manual/current/condor_history.html

如果您运行以下命令:

condor_history USERNAME -af clusterId ExitStatus

它将返回一个空格分隔的

列表

JobId ExitStatus

除了传递USERNAME之外,它还支持其他选项。

答案 1 :(得分:0)

解决此问题的另一种方法是使用condor_dagman工具。使用dagman,您可以列出作业之间的依赖关系,并且当所有依赖的作业都已完成时,dagman会自动提交作业。无需运行condor_wait或查看退出代码。