如何在snakemake输出规则中获取通配符值的基名?

时间:2017-03-08 15:27:44

标签: wildcard snakemake

在以下示例中,输出文件将在与输入文件相同的位置创建。有没有办法在输出节中获取通配符值的基名,以便我可以使用输入文件的基名来命名输出文件,但是将其写入不同的位置?

infile=['/home/user/folder1/file1','/home/user/folder2/file2/']

rule one:
 input: expand("{myfile}", myfile = infile)

 output: "{myfile}" + ".out"

 shell: "touch {wildcards.myfile}.out"

1 个答案:

答案 0 :(得分:3)

使用Python的lambda函数在Snakemake中有一种简单的方法。

首先,你应该创建一个文件字典,文件名为key,文件名为path,值为:

files = {'filesA' : 'path/to/fileA.ext', 'filesB' : 'path/to/fileB.ext'}

此字典可以位于snakefile或配置文件中。我建议把它放在配置文件中并像这样config['dict_name']

一样调用它

现在让我们使用lambda函数编写您的规则:

rule all : 
 input :
   #If you want to create in a different directory use this,
   #but it has to be like output from rule one. 
   #expand('{directory}{filename}{extension}',
           #directory = 'path/to/newdir',
           #filename = config['dictname'].keys(),
           #extension = '.out')
   #Otherwise
   expand('{filename}{extension}',
          filename = config['dictname'].keys(),
          extension = '.out')
rule one:
 input: lambda wildcards: config['dictname'][wildcards.input]

 output: "{input}" + ".out"

 message: "Executing one using {input}"

 shell: "touch {input}.out"

在代码中,您有两个规则,第一个名为all的规则将被执行。因此,当您启动snakemake时,它会希望获得与expand函数创建的列表对应的文件列表。

Snakemake将查看规则是否生成该文件列表,如果它不是在目录中搜索它们的情况。正如您所看到的,您可以使用expand目录,文件名,后缀,前缀,扩展名等来指定所需的一切......

在此示例中,Snakemake希望拥有一些文件名为密钥字典和扩展名.out的文件。规则one是制作它们的完美规则。

规则one的工作方式如下:对于字典中的每个键,将执行规则。输入部分中的lambda函数起到了这个作用。 对于记录,可以随意调用通配符input只是一个示例。

为了更优雅,你可以在变量中输入lambda函数的内容,如下所示:

_input_One = lambda wildcards: config['dictname'][wildcards.input]

然后像这样写一条输入规则:

input: _input_One 

有关详细信息,请查看https://snakemake.readthedocs.io/en/stable/

上的文档

雨果