BioPython:如何将氨基酸字母表转换为

时间:2013-10-23 21:45:46

标签: python bioinformatics biopython

在讨论如何使用Bio.SeqIO.parse()导入序列数据时,BioPython食谱说明:

  

有一个可选的参数字母表,用于指定要使用的字母表。这对于像FASTA这样的文件格式非常有用,否则Bio.SeqIO将默认使用通用字母表。

如何添加此可选参数?我有以下代码:

from os.path import abspath
from Bio import SeqIO

handle = open(f_path, "rU")
records = list(SeqIO.parse(handle, "fasta"))
handle.close()

这会从UniProt数据库导入大量FASTA文件。问题是它在通用的SingleLetterAlphabet类中。如何在SingleLetterAlphabet和ExtendedIUPACProtein之间进行转换?

最终目标是在这些序列中搜索一个主题,例如GxxxG。

1 个答案:

答案 0 :(得分:7)

像这样:

# Import required alphabet
from Bio.Alphabet import IUPAC

# Pass imported alphabet as an argument for `SeqIO.parse`:
records = list(SeqIO.parse(handle, 'fasta', IUPAC.extended_protein))