Question

我需要在学校项目中使用python，但我真的不知道如何开始。

问题是： FASTA文件包含许多DNA序列。不幸的是，有些符号含糊不清。编码是IUPAC（http://www.bioinformatics.org/sms/iupac.html）。编写一个Python脚本，给定FASTA文件的名称，写入序列标识符和文件中每个序列的可能序列数。例如：对于非常短的序列“AYGH”，可能的序列数量为6.

Answer 1

尝试使用这样的词典：

nucleotides = {'A':['A'], 'C':['C'], 'G':['G'], 'T':['T'], 'U':['U'], 'R':['A','G'], 'Y':['C','T'], 'S':['G','C'], 'W':['A','T'], 'K':['G','T'], 'M':['A','C'], 'B':['C','G','T'], 'D':['A','G','T'], 'H':['A','C','T'], 'V':['A','C','G'], 'N':['A','C','G','T'], '-':['-'], '.':['-']}

然后循环主序列的每个核苷酸的每种可能性。

python脚本：序列标识符和可能序列的数量

1 个答案: