Question

我正在使用BioPython在GenBank文件中循环打开阅读框。更具体地说，我考虑在GenBank中注释为“CDS”的功能。所以我的代码是这样的类型：

from Bio import SeqIO
gbk_dat = SeqIO.read(genbank_filepath, 'genbank')

for feature in gbk_dat.features:
    if feature.type == 'CDS':
         # Identify coding frame

我想知道是否有可能确定基因与整个基因组相对应的编码框架？ IE浏览器。如果一个基因从基因组的第1位开始，它将在编码第1帧，如果它从2开始，在编码第2帧，如果在5，那么在第2帧等等（我知道我可以相对容易地编写脚本）但是我喜欢依赖BioPython，因为它在以后共享代码时会更加清晰。）

Answer 1

我不是100％肯定这是你需要的，但在genbank文件中，CDS区域（与基因相关）看起来像这样：

 gene            1012..1356
                 /locus_tag="L_00015"
 CDS             1012..1356
                 /locus_tag="L_00015"
                 /inference="ab initio prediction:Prodigal:2.6"
                 /inference="protein motif:Pfam:PF05136.7"
                 **/codon_start=1** 
                 /transl_table=11
                 /product="Phage portal protein, lambda family"
                 /protein_id="C:L_00015"
                 /translation="MIGVFDKLEERVIGARGIIVEPQPLRKNGEMAAELAADIRRLWA
                 EWSVSPDVTGQYTRPVLERLLLRTWLRDGEVFAQMVSGAGNGLERTAECHSGLRRWSR
                 ILFPSPLMNPPD"

有一条线（/ codon_start = 1）告诉你基因的阅读框架。如果您想自动获取该信息，可以使用以下代码执行此操作：

from Bio import SeqIO
gbk_dat = SeqIO.read(genbank_filepath, 'genbank')

for feature in gbk_dat.features:
    if feature.type == 'CDS':
        print(feature.qualifiers.get('codon_start')))

至于重叠的问题......你可以发布一个示例genbank文件吗？

如何在BioPython中识别基因编码框架

1 个答案: