我正在尝试从VCF文件中提取位置和SNP。到目前为止我写了以下内容。但是,我如何更改字典的名称,以便最终为每个输入文件添加一个字典?
即:python vcf_compare.py file1.vcf file2.vcf file3.vcf
import sys
import vcf
for variants in sys.argv[1:]:
file1 = {}
vcf_reader = vcf.Reader(open(variants))
for record in vcf_reader:
pos = record.POS
alt = record.ALT
ref= record.REF
snps[pos]=ref,alt
因此对于argv [1],创建了一个名为file1的字典。如何将字典更改为例如文件二为循环的第二次迭代?
答案 0 :(得分:1)
您应该使用collections.defaultdict
并使用with open(...)
:
from collections import defaultdict
files = defaultdict(dict)
for filename in sys.argv[1:]:
with open(filename) as f:
vcf_reader = vcf.Reader(f)
for record in vcf_reader:
files[filename][record.POS] = record.REF, record.ALT
所有这些不错的python技巧使代码更易读,更短,使用更少的中间临时变量。此外,使用with open()
可确保每个文件在读取后自动关闭。
另外,正如您所看到的,您可以选择更好的变量名称,并且还可以大大减少代码行数。
答案 1 :(得分:1)
简短的回答:你做不到。对于许多早期的程序员来说,这是一个非常令人沮丧的事实。修复:另一本字典!在variants
for循环之外,创建另一个字典并使用文件名作为键。示例(您不能只复制粘贴,因为我不知道如何使用vcf库):
import sys
import vcf
all_files = {}
for variants in sys.argv[1:]:
#didn't see file1 used, and didn't see snps created
#so figured file1 was snps...
snps = {}
vcf_reader = vcf.Reader(open(variants))
for record in vcf_reader:
pos = record.POS
alt = record.ALT
ref= record.REF
snps[pos]=ref,alt
all_files[variants] = snps
我假设variants
是一个字符串形式的文件名。如果没有,请将variants
中的all_files[variants]
替换为您要用作其键的字符串。