我有一个运行condor_submit
的脚本,用于一批25个作业,condor_wait
为他们全部完成,然后另一个condor_submit
用于另一批25个作业。
我想确保前25个作业中没有Normal termination (return value 127)
失败(任何非零返回值)。
我怎样才能轻松做到这一点? 或者,如果这是不可能的,我也愿意将我的作业可执行文件包装在脚本中,以防万一它们返回非零 - 但我不知道如何使HTCondor作业失败!
答案 0 :(得分:1)
您可以使用condor_history http://research.cs.wisc.edu/htcondor/manual/current/condor_history.html
如果您运行以下命令:
condor_history USERNAME -af clusterId ExitStatus
它将返回一个空格分隔的
列表JobId ExitStatus
除了传递USERNAME之外,它还支持其他选项。
答案 1 :(得分:0)
解决此问题的另一种方法是使用condor_dagman工具。使用dagman,您可以列出作业之间的依赖关系,并且当所有依赖的作业都已完成时,dagman会自动提交作业。无需运行condor_wait或查看退出代码。