我使用PBS作业数组提交了许多工作。有时,少数工作被搞砸了,而且没有成功运行。有没有办法自动检测失败的作业并重新启动它们?
答案 0 :(得分:1)
pbs_server
支持automatic_requeue_exit_code
:
由admin定义的退出代码,它告诉pbs_server重新排队作业,而不是将其视为已完成。这允许用户添加一些可以有意义地运行作业的附加检查,如果没有,则作业脚本将退出并指定要重新排队的代码。
在序言失败的情况下,还有一项重新排列作业的规定(参见序言/结语脚本文档)。
可能有更复杂的方法,但它们不属于内置Torque选项范围。