我正在神鹰群集上运行作业,但有些人处于闲置状态并且似乎永远不会启动,更不用说完成了。如果没有手动执行condor_wait -wait n logfile
,那么condor_rm
,是否有更优雅(并自动,内置)的方式来终止挂起作业?
相反,由于这些工作都在dagman中,有没有办法让dagman中的工作超时,以便以后的工作可以运行?
答案 0 :(得分:4)
以下两种方法可以在空闲时间过长后自动删除作业(本例中为24小时)。
将以下内容放入作业的提交文件中:
periodic_remove = JobStatus == 1&& CurrentTime-EnteredCurrentStatus> 3600 * 24
或者将以下内容放在提交机器上的condor配置文件中:
SYSTEM_PERIODIC_REMOVE = JobStatus == 1&& CurrentTime-EnteredCurrentStatus> 3600 * 24
当然,最好理解为什么这些工作仍处于闲置状态。为此,您可能会发现condor_q -analyze jobid
有帮助。