如何从dict翻译FASTA序列/如何使函数输出一个字符串?

时间:2016-03-30 09:54:09

标签: string dictionary typeerror bioinformatics fasta

首先我不能使用BioPython :( 我需要从FASTA文件翻译一堆FASTA序列并将它们翻译成蛋白质序列。 FASTA文件是这样的;

>some info
ACCGGGCTAAA

>other info
ACCGCCAATTT

所以我可以创建一个只输出DNA序列的函数,但是当我尝试翻译它时,我得到以下错误; " TypeError:类型' _io.TextIOWrapper'的对象没有len()" 我没有想法如何解决这个问题。任何帮助都非常感谢!!!!!此外,我正在学习我的第一个Python课程,所以请解释任何答案,就好像是一个白痴:)

#Open the file for reading
fasta=open('mRNA_database.fasta', 'r')


def readSeq(fasta):
    for line in fasta:
        if line.startswith('>'):
            continue
        line = line.strip()
        #print(line)
readSeq(fasta)

g_code=dict()
g_code = {'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
    'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
    'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
    'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
    'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
    'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
    'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
    'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
    'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
    'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
    'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
    'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
    'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
    'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
    'TAC':'Y', 'TAT':'Y', 'TAA':'stop', 'TAG':'stop',
    'TGC':'C', 'TGT':'C', 'TGA':'stop', 'TGG':'W'}

def aa_to_prt(fasta, g_code):
    prt = ''
    for i in range(0, len(fasta), 3):
        codon = fasta[i:i+3]
        prt+= g_code[codon]
    print(prt)

aa_to_prt(fasta, g_code)

2 个答案:

答案 0 :(得分:0)

您想要的输出是多少?

输入如:

some info ACCGGGCTAAA
other info ACCGCCAATTT

代码:

def readSeq():
    for line in open('mRNA_database.fasta', 'r'):
        if line.startswith('>'):
            continue
        line = line.strip()
        yield line.split(' ')[2]

g_code=dict()
g_code = {'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
    'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
    'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
    'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
    'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
    'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
    'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
    'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
    'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
    'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
    'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
    'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
    'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
    'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
    'TAC':'Y', 'TAT':'Y', 'TAA':'stop', 'TAG':'stop',
    'TGC':'C', 'TGT':'C', 'TGA':'stop', 'TGG':'W'}

def aa_to_prt(g_code):
    prt = ''
    for name in readSeq():
        codon = name[:3]
        prt += g_code[codon]
    print(prt)

aa_to_prt(g_code)

我得到了输出:

TT

是你想要的吗?

答案 1 :(得分:0)

您似乎正在尝试使用len(filehandle)来确定您可以读取文件的距离。但句柄没有长度 - 文件可能,但这不是你正在看的。无论如何,API是一个更普遍的API,在许多情况下,您打开的流不会(还)具有长度 - 系统无法知道何时打开句柄用户将键入多少字节,或通过网络到达多少数据包。

相反,惯例是简单地迭代句柄,直到它不再产生值。 (在幕后,现代Python使用迭代器,当没有任何东西可供阅读时,它会创建StopIteration异常。)

您的readSeq函数正确执行此操作,但您没有从中返回任何值,因此它只是使用该文件,并在文件末尾打开文件句柄,没有留下任何内容读取。

也许尝试这样的事情。

def prtSeq(fastahandle):
    global g_code # as defined in your code already
    for line in fastahandle:
        if line.startswith('>'):
            continue
        line = line.strip()
        proteins = []
        for seq in xrange(0, len(line)-1, 3):
            proteins.append(g_code[line[seq:seq+3]])
        print(''.join(proteins))

prtSeq(open('mRNA_database.fasta', 'r'))

顺便说一句,为变量分配一个空字典是没用的;你会立即用新词典覆盖以前的值。

更好的设计只会将值返回给调用者进行打印,但我认为你主要是想用最简单的代码完成工作。