我正在使用BioPython在GenBank文件中循环打开阅读框。更具体地说,我考虑在GenBank中注释为“CDS”的功能。所以我的代码是这样的类型:
from Bio import SeqIO
gbk_dat = SeqIO.read(genbank_filepath, 'genbank')
for feature in gbk_dat.features:
if feature.type == 'CDS':
# Identify coding frame
我想知道是否有可能确定基因与整个基因组相对应的编码框架? IE浏览器。如果一个基因从基因组的第1位开始,它将在编码第1帧,如果它从2开始,在编码第2帧,如果在5,那么在第2帧等等(我知道我可以相对容易地编写脚本)但是我喜欢依赖BioPython,因为它在以后共享代码时会更加清晰。)
答案 0 :(得分:0)
我不是100%肯定这是你需要的,但在genbank文件中,CDS区域(与基因相关)看起来像这样:
gene 1012..1356
/locus_tag="L_00015"
CDS 1012..1356
/locus_tag="L_00015"
/inference="ab initio prediction:Prodigal:2.6"
/inference="protein motif:Pfam:PF05136.7"
**/codon_start=1**
/transl_table=11
/product="Phage portal protein, lambda family"
/protein_id="C:L_00015"
/translation="MIGVFDKLEERVIGARGIIVEPQPLRKNGEMAAELAADIRRLWA
EWSVSPDVTGQYTRPVLERLLLRTWLRDGEVFAQMVSGAGNGLERTAECHSGLRRWSR
ILFPSPLMNPPD"
有一条线(/ codon_start = 1)告诉你基因的阅读框架。如果您想自动获取该信息,可以使用以下代码执行此操作:
from Bio import SeqIO
gbk_dat = SeqIO.read(genbank_filepath, 'genbank')
for feature in gbk_dat.features:
if feature.type == 'CDS':
print(feature.qualifiers.get('codon_start')))
至于重叠的问题......你可以发布一个示例genbank文件吗?