根据ID从fasta文件中删除重复序列

时间:2014-10-22 07:43:07

标签: python biopython

我写了一个小的biopython脚本来从一个基于ID的fasta文件中提取序列,但它确实提取了重复项,因此我希望从我的fasta文件中过滤重复的序列(例如具有完全相同的ID)。

我试图修改我的脚本但是我失败了:

from Bio import SeqIO

id = []
for line in open("short.txt","r"):
    id.append(line.rstrip().strip('"'))


for rec in SeqIO.parse("out.fa","fasta"):
    #print rec.id
    if rec.id in id:
        if rec.id not in rec.format:
            print rec.format("fasta")

有人可以帮忙吗?

1 个答案:

答案 0 :(得分:0)

ids = set()
for rec in blah:
    if rec.id not in ids:
        ids.add(rec.id)
        # process it