我正在使用snakemake
构建可以在SLURM集群上运行的变体调用管道。集群具有登录节点和计算节点。任何实际计算都应以srun
或sbatch
作业的形式在计算节点上完成。作业最多只能运行48小时。我的问题是,处理许多样本(尤其是在队列繁忙时)将花费48小时以上的时间来处理每个样本的所有规则。 snakemake
的传统集群执行使主线程运行,该主线程仅在所有规则的依赖项运行完毕后才将规则提交到队列。我应该在计算节点上运行此主程序,因此这将整个管道的运行时间限制为48小时。
我知道SLURM作业具有依赖项指令,这些指令告诉作业要等到其他作业完成后才能运行。因为snakemake
工作流程是DAG,是否可以一次提交所有作业,而每个作业的依赖关系由DAG的规则依赖关系定义?提交所有作业后,主线程将完成,从而绕过了48小时的限制。 snakemake
是否有可能,如果可以,它如何工作?我已经找到了--immediate-submit
命令行选项,但是我不确定这是否具有我要查找的行为以及如何使用该命令,因为在提交作业后,群集会打印Submitted batch job [id]
而不是作业ID。
答案 0 :(得分:2)
不幸的是,立即提交无法正常工作,但是需要一些调整才能使其正常工作。这是因为作业之间的依赖关系传递的方式在群集系统之间有所不同。前一阵子我也遇到了同样的问题。正如立即提交的文档所说:
立即将所有作业提交到集群,而不是等待 当前输入文件。除非您使群集知道,否则这将失败 工作依赖关系通过:$ snakemake –cluster‘sbatch –dependency {dependencies}。假设您的提交脚本(此处 sbatch)将生成的作业ID输出到第一行stdout, {dependencies}将使用空格分隔的工作ID填充此工作 取决于。
因此,问题在于sbatch
不会将生成的作业ID输出到第一条标准输出行。但是,我们可以使用自己的shell脚本来规避此问题:
parseJobID.sh:
#!/bin/bash
# helper script that parses slurm output for the job ID,
# and feeds it to back to snakemake/slurm for dependencies.
# This is required when you want to use the snakemake --immediate-submit option
if [[ "Submitted batch job" =~ "$@" ]]; then
echo -n ""
else
deplist=$(grep -Eo '[0-9]{1,10}' <<< "$@" | tr '\n' ',' | sed 's/.$//')
echo -n "--dependency=aftercorr:$deplist"
fi;
并确保使用chmod +x parseJobID.sh
授予脚本执行权限。
然后我们可以这样调用立即提交:
snakemake --cluster 'sbatch $(./parseJobID.sh {dependencies})' --jobs 100 --notemp --immediate-submit
请注意,这将同时提交最多100个工作。您可以将其增加或减少到任意数量,但是要知道,大多数集群系统不允许每个用户同时执行1000个以上的作业。