Question

我有一个包含多个名字的文件：

seq1 seq9 seq3 seq7 seq5 seqi seqn....

和另一个包含我所有序列的fasta文件，我需要做的是按照上面列表的顺序排序我的序列：例如：

>seq1
aaaaa
>seq9
aaaaa
>seq3
aaaaa
>seq7
aaaaa
>seq5
aaaaa
...

我试过了：

input_file = open('concatenate_0035_0042_aa2.fa','r')
output_file = open('result.fasta','a')


liste=['seq1','seq5','seq8' etc]
print(len(liste))
compteur=1
for i in liste:
    record_dict = SeqIO.to_dict(SeqIO.parse("concatenate_0035_0042_aa2.fa", "fasta"))
    print(">",record_dict[i].id,file=output_file,sep="")
    print(record_dict[i].seq,file=output_file)
    compteur+=1
    print(compteur)

output_file.close()
input_file.close()

但实际上需要花费太多时间。

Answer 1

您当前代码花费太多时间的原因是因为对于列表中的每个序列ID，您解析fasta文件并将其转换为dict。当然，如果你的fasta文件很大，这是一个昂贵的计算。所以只做一次：

from Bio import SeqIO

ids = ['seq1', 'seq9', 'seq3', 'seq7', 'seq5'] 
with open('concatenate_0035_0042_aa2.fa') as seqs, open('result.fasta', 'w') as result:
    record_dict = SeqIO.to_dict(SeqIO.parse(seqs, 'fasta'))
    result_records = [record_dict[id_] for id_ in ids]
    SeqIO.write(result_records, result, "fasta")

with open(...)语句会在您完成后自动为您关闭文件。

使用ID列表提取几个fasta文件（按顺序）

1 个答案: