Question

我写了一个小的biopython脚本来从一个基于ID的fasta文件中提取序列，但它确实提取了重复项，因此我希望从我的fasta文件中过滤重复的序列（例如具有完全相同的ID）。

我试图修改我的脚本但是我失败了：

from Bio import SeqIO

id = []
for line in open("short.txt","r"):
    id.append(line.rstrip().strip('"'))


for rec in SeqIO.parse("out.fa","fasta"):
    #print rec.id
    if rec.id in id:
        if rec.id not in rec.format:
            print rec.format("fasta")

有人可以帮忙吗？

Answer 1

ids = set()
for rec in blah:
    if rec.id not in ids:
        ids.add(rec.id)
        # process it

根据ID从fasta文件中删除重复序列

1 个答案: