如何在BioPython中识别基因编码框架

时间:2016-03-04 10:46:52

标签: python bioinformatics biopython

我正在使用BioPython在GenBank文件中循环打开阅读框。更具体地说,我考虑在GenBank中注释为“CDS”的功能。所以我的代码是这样的类型:

from Bio import SeqIO
gbk_dat = SeqIO.read(genbank_filepath, 'genbank')

for feature in gbk_dat.features:
    if feature.type == 'CDS':
         # Identify coding frame

我想知道是否有可能确定基因与整个基因组相对应的编码框架? IE浏览器。如果一个基因从基因组的第1位开始,它将在编码第1帧,如果它从2开始,在编码第2帧,如果在5,那么在第2帧等等(我知道我可以相对容易地编写脚本)但是我喜欢依赖BioPython,因为它在以后共享代码时会更加清晰。)

1 个答案:

答案 0 :(得分:0)

我不是100%肯定这是你需要的,但在genbank文件中,CDS区域(与基因相关)看起来像这样:

 gene            1012..1356
                 /locus_tag="L_00015"
 CDS             1012..1356
                 /locus_tag="L_00015"
                 /inference="ab initio prediction:Prodigal:2.6"
                 /inference="protein motif:Pfam:PF05136.7"
                 **/codon_start=1** 
                 /transl_table=11
                 /product="Phage portal protein, lambda family"
                 /protein_id="C:L_00015"
                 /translation="MIGVFDKLEERVIGARGIIVEPQPLRKNGEMAAELAADIRRLWA
                 EWSVSPDVTGQYTRPVLERLLLRTWLRDGEVFAQMVSGAGNGLERTAECHSGLRRWSR
                 ILFPSPLMNPPD"

有一条线(/ codon_start = 1)告诉你基因的阅读框架。如果您想自动获取该信息,可以使用以下代码执行此操作:

from Bio import SeqIO
gbk_dat = SeqIO.read(genbank_filepath, 'genbank')

for feature in gbk_dat.features:
    if feature.type == 'CDS':
        print(feature.qualifiers.get('codon_start')))

至于重叠的问题......你可以发布一个示例genbank文件吗?