Snakemake:目标规则可能不包含通配符

时间:2018-06-12 23:41:13

标签: snakemake

我正在尝试提供一堆文件作为snakemake的输入,并且通配符由于某种原因不起作用:

rule cluster:
  input:
    script = '/Users/nikitavlasenko/python_scripts/python/dbscan.py',
    path   = '/Users/nikitavlasenko/python_scripts/data_files/umap/{sample}.csv'
  output:
    path = '/Users/nikitavlasenko/python_scripts/output/{sample}'
  shell:
    "python {input.script} -data {input.path} -eps '0.3' -min_samples '10' -path {output.path}"

我希望snakemakeumap目录中读取文件,获取它们的名称,然后使用它们传递给python脚本,这样每个结果都会得到一个唯一的名称。如果没有我现在得到的错误,如何才能实现这项任务:

Building DAG of jobs...
WorkflowError:
Target rules may not contain wildcards. Please specify concrete files or 
a rule without wildcards.
  

更新

我发现最有可能在顶部需要rule all

https://bioinformatics.stackexchange.com/questions/2761/how-to-resolve-in-snakemake-error-target-rules-may-not-contain-wildcards

所以我这样添加:

samples='SCID_WT_CCA'
rule all:
    input:  
        expand('/Users/nikitavlasenko/python_scripts/data_files/umap/
        {sample}_umap.csv', sample=samples.split(' '))

但是,我收到以下奇怪的消息:

Building DAG of jobs...
Nothing to be done.

所以,它没有运行。

  

更新

我认为这可能与我在顶部只有一个样本名称的事实有关,因此我将其更改为:

samples='SCID_WT_CCA WT SCID plus_1 minus_1'

然后添加了相应的文件,但它没有修复此错误。

实际上,如果我运行snakemake cluster,我会收到与最顶层相同的错误,但如果我只是运行snakemake,则会出现nothing to be done错误。我试图用相对的路径替换绝对路径,但它没有帮助:

samples='SCID_WT_CCA WT SCID plus_1 minus_1'
  rule all:
    input:
      expand('data_files/umap/{sample}_umap.csv', sample=samples.split(' '))

rule cluster:
  input:
    script = 'python/dbscan.py',
    path   = 'data_files/umap/{sample}_umap.csv'
  output:
    path = 'output/{sample}'
  shell:
    "python {input.script} -data {input.path} -eps '0.3' -min_samples '10' -path {output.path}"

2 个答案:

答案 0 :(得分:1)

“all”规则应该包含您希望其他规则生成的文件列表作为输出。在这里,您似乎正在使用起始文件列表。

尝试以下方法:

samples = 'SCID_WT_CCA WT SCID plus_1 minus_1'

rule all:
    input:
        expand('output/{sample}', sample=samples.split(' '))

rule cluster:
    input:
        script = 'python/dbscan.py',
        path   = 'data_files/umap/{sample}_umap.csv'
    output:
        path = 'output/{sample}'
    shell:
        "python {input.script} -data {input.path} -eps '0.3' -min_samples '10' -path {output.path}"

答案 1 :(得分:1)

根据bli答案'的建议,我能够解决问题。但是,还需要进行一次修改。我将output/{sample}传递给了python脚本,它从此路径生成了两个文件。似乎不应该这样做,因为当snakemake写道它无法看到output/file_name时我收到了另一个错误。显然,只有当我手动设置所有路径而没有python动态修改它时,它才能看到它们,所以我这样做了,这是最后的Snakefile运行良好:

samples='SCID_WT_CCA WT SCID plus_1 minus_1'
rule all:
    input:
        expand('output/{sample}_umap.png', sample=samples.split(' ')),
        expand('output/{sample}_clusters.csv', sample=samples.split(' '))

rule cluster:
    input:
        script = 'python/dbscan.py',
        path   = 'data_files/umap/{sample}_umap.csv'
    output:
        path_to_umap = 'output/{sample}_umap.png',
        path_to_clusters = 'output/{sample}_clusters.csv'
    shell:
        "python {input.script} -data {input.path} -eps '0.3' -min_samples '10' -path_to_umap {output.path_to_umap} -path_to_clusters {output.path_to_clusters}"