单独调用规则的变量,并为特定规则添加独立的环境

时间:2019-05-27 08:55:55

标签: python function wildcard expand snakemake

我需要在集群中运行snakemake规则,因此对于某些规则,我需要加载一些工具和库,而这些工具是独立于其他规则的/独占的。我这种情况下,如何在我的snakemake规则中指定这些。例如,对于rule score,我目前需要module load r/3.5.1export R_lib =/user/tools/software,在运行snakemake之前,我将分别在命令行中运行这些行。但是,如果在规则中以env的方式做到这一点,那就太好了。

  1. 问题,

我有一条规则,

rule score:
    input:
        count=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.tsv'),
        libsize=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.size_tsv')
    params:
        result_dir=os.path.join(config['general']['paths']['outdir'], 'score'),
        cancertype=config['general']['paths']['cancertype'],
        sample_id=expand('{sample}',sample=samples['sample'].unique())
    output:
        files=os.path.join(config['general']['paths']['outdir'], 'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
    shell:
        'mkdir -p {params.result_dir};Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {params.sample_id} {input.count} {input.libsize}'

我对以上代码段的实际行为是:

shell:
        mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv

鉴于此,预期的行为是:

shell:
        mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv

第二个示例

shell:
        mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 /cluster/projects/test/results/exp/GNMS4.tsv /cluster/projects/test/results/Exp/GNMS4.ize.tsv

我需要变量sample_d ['GNMS4', 'MRT5T']应该分开使用,而不是在一个shell命令行中一起使用。任何建议将不胜感激。谢谢,

2 个答案:

答案 0 :(得分:1)

关于您的第一个问题:您可以在规则的module load部分中放置任意exportshell命令。

关于第二个问题,您可能不应该在规则的expand部分中使用params。在expand('{sample}',sample=samples['sample'].unique())中,您实际上并未使用sample通配符的值,而是生成了sample['sample']中所有唯一值的列表。您可能只需要在shell命令的定义中使用wildcards.sample而不是使用params元素。

如果您要基于score的可能值来运行sample规则的多个实例,则需要使用另一个将score的输出作为它的输入。

请注意,为提高可读性,可以使用python的多行字符串(三重引号)。

总而言之,您可以尝试如下操作:

rule all:
    input:
        expand(
            os.path.join(
                config['general']['paths']['outdir'],
                'score',
                '{sample}_bg_scores.tsv',
                '{sample}_tp_scores.tsv'),
            sample=samples['sample'].unique())

rule score:
    input:
        count = os.path.join(
             config['general']['paths']['outdir'],
             'count_expression', '{sample}.tsv'),
        libsize = os.path.join(
             config['general']['paths']['outdir'],
             'count_expression', '{sample}.size_tsv')
    params:
        result_dir = os.path.join(config['general']['paths']['outdir'], 'score'),
        cancertype = config['general']['paths']['cancertype'],
    output:
        files = os.path.join(
            config['general']['paths']['outdir'],
            'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
    shell:
        """
        module load r/3.5.1
        export R_lib =/user/tools/software
        mkdir -p {params.result_dir}
        Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {wildcards.sample} {input.count} {input.libsize}
        """

答案 1 :(得分:0)

    我认为
  1. onstart可以工作。请注意,空运行不会触发此处理程序,这在您的情况下是可以接受的。
onstart:
   shell("load tools") 
  1. 简单的bash for循环可以解决该问题。但是,如果希望每个样本作为单独的规则运行,则必须使用样本名称作为output文件名的一部分。
shell:
   '''
   for sample in {param.sample_id}
   do
      your command $sample
   done
   '''