Condor超时用于闲置工作

时间:2012-05-26 05:33:31

标签: condor

我正在神鹰群集上运行作业,但有些人处于闲置状态并且似乎永远不会启动,更不用说完成了。如果没有手动执行condor_wait -wait n logfile,那么condor_rm,是否有更优雅(并自动,内置)的方式来终止挂起作业?

相反,由于这些工作都在dagman中,有没有办法让dagman中的工作超时,以便以后的工作可以运行?

1 个答案:

答案 0 :(得分:4)

以下两种方法可以在空闲时间过长后自动删除作业(本例中为24小时)。

  1. 将以下内容放入作业的提交文件中:

    periodic_remove = JobStatus == 1&& CurrentTime-EnteredCurrentStatus> 3600 * 24

  2. 或者将以下内容放在提交机器上的condor配置文件中:

    SYSTEM_PERIODIC_REMOVE = JobStatus == 1&& CurrentTime-EnteredCurrentStatus> 3600 * 24

  3. 当然,最好理解为什么这些工作仍处于闲置状态。为此,您可能会发现condor_q -analyze jobid有帮助。