python脚本:序列标识符和可能序列的数量

时间:2016-12-20 16:10:25

标签: python fasta ambiguous

我需要在学校项目中使用python,但我真的不知道如何开始。

问题是: FASTA文件包含许多DNA序列。不幸的是,有些符号含糊不清。编码是IUPAC(http://www.bioinformatics.org/sms/iupac.html)。编写一个Python脚本,给定FASTA文件的名称,写入序列标识符和文件中每个序列的可能序列数。 例如:对于非常短的序列“AYGH”,可能的序列数量为6.

1 个答案:

答案 0 :(得分:0)

尝试使用这样的词典:

nucleotides = {'A':['A'], 'C':['C'], 'G':['G'], 'T':['T'], 'U':['U'], 'R':['A','G'], 'Y':['C','T'], 'S':['G','C'], 'W':['A','T'], 'K':['G','T'], 'M':['A','C'], 'B':['C','G','T'], 'D':['A','G','T'], 'H':['A','C','T'], 'V':['A','C','G'], 'N':['A','C','G','T'], '-':['-'], '.':['-']}

然后循环主序列的每个核苷酸的每种可能性。