我正在尝试创建代码以将基因文件与基因面板进行比较。 基因面板文件为csv格式,具有染色体,基因,起始位置和终止位置。 患者文件具有染色体,突变和位置。 所以我做了一个循环,将基因组信息传递给一个函数,在该函数中进行比较以返回相似项目列表。 当我使用手动数据调用该功能时,该功能很棒。但不要在循环内进行比较。
import vcf
import os, sys
records = open('exampleGenePanel.csv')
read = vcf.Reader(open('examplePatientFile.vcf','r'))
#functions to find mutations in patients sequence
def findMutations(gn,chromo,start,end):
start = int(start)
end = int(end)
for each in read:
CHROM = each.CHROM
if CHROM != chromo:
continue
POS = each.POS
if POS < start:
continue
if POS > end:
continue
REF = each.REF
ALT = each.ALT
print (gn,CHROM,POS,REF,ALT)
list.append([gn,CHROM,POS,REF,ALT])
return list
gene = records.readlines()
list=[]
y = len (gene)
x=1
while x < 3:
field = gene[x].split(',')
gname = field[0]
chromo = field[1]
gstart = field[2]
gend = field[3]
findMutations(gname,chromo,gstart,gend)
x = x+1
if not list:
print ('Mutation not found')
else:
print (len(list),' Mutations found')
print (list)
我想在列表中获取匹配突变的详细信息。 当我手动将数据传递给该函数时,这将按预期工作。 例如findMutations('TESTGene','chr8','146171437','146229161') 但是在循环中无法比较
答案 0 :(得分:2)
问题在于,findMutations
每次都试图从read
读取,但是在第一次调用之后,read
已经被读取,什么也没剩下。建议在调用函数之前先读取read
的内容,然后将结果保存在列表中。然后findMutations
可以在每次调用列表时读取它。
在结果列表中使用list
以外的名称也是个好主意,因为该名称与Python内置函数冲突。最好让findMutations
返回其结果列表,而不是将其附加到全局列表中。