每次迭代循环创建一个新的字典

时间:2017-03-30 21:32:47

标签: python bioinformatics

我正在尝试从VCF文件中提取位置和SNP。到目前为止我写了以下内容。但是,我如何更改字典的名称,以便最终为每个输入文件添加一个字典?

即:python vcf_compare.py file1.vcf file2.vcf file3.vcf

import sys

import vcf

for variants in sys.argv[1:]:
    file1 = {} 
    vcf_reader = vcf.Reader(open(variants))
    for record in vcf_reader:
        pos = record.POS
        alt = record.ALT
        ref= record.REF
        snps[pos]=ref,alt

因此对于argv [1],创建了一个名为file1的字典。如何将字典更改为例如文件二为循环的第二次迭代?

2 个答案:

答案 0 :(得分:1)

您应该使用collections.defaultdict并使用with open(...)

from collections import defaultdict

files = defaultdict(dict)
for filename in sys.argv[1:]:
    with open(filename) as f:
        vcf_reader = vcf.Reader(f)
        for record in vcf_reader:
            files[filename][record.POS] = record.REF, record.ALT

所有这些不错的python技巧使代码更易读,更短,使用更少的中间临时变量。此外,使用with open()可确保每个文件在读取后自动关闭。

另外,正如您所看到的,您可以选择更好的变量名称,并且还可以大大减少代码行数。

答案 1 :(得分:1)

简短的回答:你做不到。对于许多早期的程序员来说,这是一个非常令人沮丧的事实。修复:另一本字典!在variants for循环之外,创建另一个字典并使用文件名作为键。示例(您不能只复制粘贴,因为我不知道如何使用vcf库):

import sys

import vcf

all_files = {}
for variants in sys.argv[1:]:
    #didn't see file1 used, and didn't see snps created
    #so figured file1 was snps...
    snps = {} 
    vcf_reader = vcf.Reader(open(variants))
    for record in vcf_reader:
        pos = record.POS
        alt = record.ALT
        ref= record.REF
        snps[pos]=ref,alt
    all_files[variants] = snps

我假设variants是一个字符串形式的文件名。如果没有,请将variants中的all_files[variants]替换为您要用作其键的字符串。