首先我不能使用BioPython :( 我需要从FASTA文件翻译一堆FASTA序列并将它们翻译成蛋白质序列。 FASTA文件是这样的;
>some info
ACCGGGCTAAA
>other info
ACCGCCAATTT
所以我可以创建一个只输出DNA序列的函数,但是当我尝试翻译它时,我得到以下错误; " TypeError:类型' _io.TextIOWrapper'的对象没有len()" 我没有想法如何解决这个问题。任何帮助都非常感谢!!!!!此外,我正在学习我的第一个Python课程,所以请解释任何答案,就好像是一个白痴:)
#Open the file for reading
fasta=open('mRNA_database.fasta', 'r')
def readSeq(fasta):
for line in fasta:
if line.startswith('>'):
continue
line = line.strip()
#print(line)
readSeq(fasta)
g_code=dict()
g_code = {'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
'TAC':'Y', 'TAT':'Y', 'TAA':'stop', 'TAG':'stop',
'TGC':'C', 'TGT':'C', 'TGA':'stop', 'TGG':'W'}
def aa_to_prt(fasta, g_code):
prt = ''
for i in range(0, len(fasta), 3):
codon = fasta[i:i+3]
prt+= g_code[codon]
print(prt)
aa_to_prt(fasta, g_code)
答案 0 :(得分:0)
您想要的输出是多少?
输入如:
some info ACCGGGCTAAA
other info ACCGCCAATTT
代码:
def readSeq():
for line in open('mRNA_database.fasta', 'r'):
if line.startswith('>'):
continue
line = line.strip()
yield line.split(' ')[2]
g_code=dict()
g_code = {'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
'TAC':'Y', 'TAT':'Y', 'TAA':'stop', 'TAG':'stop',
'TGC':'C', 'TGT':'C', 'TGA':'stop', 'TGG':'W'}
def aa_to_prt(g_code):
prt = ''
for name in readSeq():
codon = name[:3]
prt += g_code[codon]
print(prt)
aa_to_prt(g_code)
我得到了输出:
TT
是你想要的吗?
答案 1 :(得分:0)
您似乎正在尝试使用len(filehandle)
来确定您可以读取文件的距离。但句柄没有长度 - 文件可能,但这不是你正在看的。无论如何,API是一个更普遍的API,在许多情况下,您打开的流不会(还)具有长度 - 系统无法知道何时打开句柄用户将键入多少字节,或通过网络到达多少数据包。
相反,惯例是简单地迭代句柄,直到它不再产生值。 (在幕后,现代Python使用迭代器,当没有任何东西可供阅读时,它会创建StopIteration
异常。)
您的readSeq
函数正确执行此操作,但您没有从中返回任何值,因此它只是使用该文件,并在文件末尾打开文件句柄,没有留下任何内容读取。
也许尝试这样的事情。
def prtSeq(fastahandle):
global g_code # as defined in your code already
for line in fastahandle:
if line.startswith('>'):
continue
line = line.strip()
proteins = []
for seq in xrange(0, len(line)-1, 3):
proteins.append(g_code[line[seq:seq+3]])
print(''.join(proteins))
prtSeq(open('mRNA_database.fasta', 'r'))
顺便说一句,为变量分配一个空字典是没用的;你会立即用新词典覆盖以前的值。
更好的设计只会将值返回给调用者进行打印,但我认为你主要是想用最简单的代码完成工作。