如何重新启动群集(qsub)中失败的PBS作业?

时间:2018-12-12 22:37:12

标签: python-3.x pbs qsub torque

我正在使用 qsub 命令在集群中运行 PBS 作业(python)。我很好奇我该如何从失败的步骤重新开始同一工作? 任何类型的帮助将不胜感激。

1 个答案:

答案 0 :(得分:1)

很有可能,你不能。

重新启动作业需要检查点文件。
为此,必须在HPC环境中显式配置检查点支持,然后必须使用其他命令行参数提交作业。

请参阅 http://docs.adaptivecomputing.com/torque/3-0-5/2.6jobcheckpoint.php