我正在尝试计算Rosalind问题的DNA序列的GC含量(以%表示)。我有以下代码,但它返回0,或仅返回G的数量或单独的C(无百分比)。
x = raw_input("Sequence?:").upper()
total = len(x)
c = x.count("C")
g = x.count("G")
gc_total = g+c
gc_content = gc_total/total
print gc_content
我也试过这个,只是为了得到G和C的计数,而不是百分比,但它只返回整个字符串的计数:
x = raw_input("Sequence?:").upper()
def gc(n):
count = 0
for i in n:
if i == "C" or "G":
count = count + 1
else:
count = count
return count
gc(x)
编辑:我在第一个代码示例中修复了print语句中的拼写错误。这不是问题,我只是粘贴了错误的代码片段(有很多尝试......)
答案 0 :(得分:4)
您的问题是您正在执行整数除法,而不是浮点除法。
尝试
gc_content = gc_total / float(total)
答案 1 :(得分:1)
不应:
print cg_content
阅读
打印gc_content?
至于其他代码片段,你的循环说
如果i ==“C”或“G”:
每次将“G”评估为true,从而将if语句作为true运行。
相反,应该阅读
如果i ==“C”或i ==“G”:
此外,您不需要其他声明。
希望这会有所帮助。让我们知道它是怎么回事。
Abdul Sattar
答案 2 :(得分:0)
您还需要将答案乘以100才能将其转换为百分比。
答案 3 :(得分:0)
#This works for me.
import sys
filename=sys.argv[1]
fh=open(filename,'r')
file=fh.read()
x=file
c=0
a=0
g=0
t=0
for x in file:
if "C" in x:
c+=1
elif "G" in x:
g+=1
elif "A" in x:
a+=1
elif "T" in x:
t+=1
print "C=%d, G=%d, A=%d, T=%d" %(c,g,a,t)
gc_content=(g+c)*100/(a+t+g+c)
print "gc_content= %f" %(gc_content)
答案 4 :(得分:0)
import sys
orignfile = sys.argv[1]
outfile = sys.argv[2]
sequence = ""
with open(orignfile, 'r') as f:
for line in f:
if line.startswith('>'):
seq_id = line.rstrip()[0:]
else:
sequence += line.rstrip()
GC_content = float((sequence.count('G') + sequence.count('C'))) / len(sequence) * 100
with open(outfile, 'a') as file_out:
file_out.write("The GC content of '%s' is\t %.2f%%" % (seq_id, GC_content))
答案 5 :(得分:0)
也许为时已晚,但使用Bio会更好
#!/usr/bin/env python
import sys
from Bio import SeqIO
filename=sys.argv[1]
fh= open(filename,'r')
parser = SeqIO.parse(fh, "fasta")
for record in parser:
c=0
a=0
g=0
t=0
for x in str(record.seq):
if "C" in x:
c+=1
elif "G" in x:
g+=1
elif "A" in x:
a+=1
elif "T" in x:
t+=1
gc_content=(g+c)*100/(a+t+g+c)
print "%s\t%.2f" % (filename, gc_content)