我写了一个小的biopython脚本来从一个基于ID的fasta文件中提取序列,但它确实提取了重复项,因此我希望从我的fasta文件中过滤重复的序列(例如具有完全相同的ID)。
我试图修改我的脚本但是我失败了:
from Bio import SeqIO
id = []
for line in open("short.txt","r"):
id.append(line.rstrip().strip('"'))
for rec in SeqIO.parse("out.fa","fasta"):
#print rec.id
if rec.id in id:
if rec.id not in rec.format:
print rec.format("fasta")
有人可以帮忙吗?
答案 0 :(得分:0)
ids = set()
for rec in blah:
if rec.id not in ids:
ids.add(rec.id)
# process it