Question

我想根据序列成分扣除两个文件，而不是使用标题名称来删除序列。还有其他方法我可以扣除序列吗？谁能帮我？如果下面的fasta标题替换为＆gt; human，则以下代码无法运行。

代码

from Bio import SeqIO

input_file = 'a.fasta'
merge_file = 'original.fasta'
output_file = 'results.fasta'
exclude = set()
fasta_sequences = SeqIO.parse(open(input_file),'fasta')
for fasta in fasta_sequences:
    exclude.add(fasta.id)

fasta_sequences = SeqIO.parse(open(merge_file),'fasta')
with open(output_file, 'w') as output_handle:
   for fasta in fasta_sequences:
        if fasta.id not in exclude:
            SeqIO.write([fasta], output_handle, "fasta")

a.fasta

>chr12:15747942-15747949
TGACATCA
>chr2:130918058-130918065
TGACCTCA

original.fasta

>chr3:99679938-99679945
TGACGTAA
>chr9:135822160-135822167
TGACCTCA
>chr12:15747942-15747949
TGACATCA
>chr2:130918058-130918065
TGACCTCA
>chr2:38430457-38430464
TGACCTCA
>chr1:112381724-112381731
TGACATCA

results.fasta

>chr3:99679938-99679945
TGACGTAA
>chr9:135822160-135822167
TGACCTCA
>chr2:38430457-38430464
TGACCTCA
>chr1:112381724-112381731
TGACATCA

Answer 1

您可以相互检查序列。但是要小心，序列可能不是100％匹配，并且它们需要为此方法提供所需的结果。使用str(your_obj.seq)访问序列。

在您的代码中，在此处实施更改：

for fasta in fasta_sequences:
    exclude.add(str(fasta.seq))

在这里：

for fasta in fasta_sequences:
        if str(fasta.seq) not in exclude:

在您的示例中，您应该注意results.fasta文件只包含以下行，因为它是original.fasta中唯一与a.fasta的序列不匹配的序列。

>chr3:99679938-99679945
TGACGTAA

Python：如何根据序列基础而不是标题名称去除序列？

1 个答案: