从多个序列比对中提取和连接外显子

时间:2016-05-02 14:37:16

标签: perl perl-module

使用我的(相当)基本的编码技巧,我已经整理了一个脚本,它将解析对齐的multi-fasta文件(多序列对齐)并提取两个指定列之间的所有数据。

use Bio::SimpleAlign;  
use Bio::AlignIO;
$str = Bio::AlignIO->new(-file => $inputfilename, -format => 'fasta');  
$aln = $str->next_aln();
$mini = $aln->slice($array[0], $array[1]);
$out = Bio::AlignIO->new(-file => $array[3], -format => 'fasta');
$out->write_aln($mini);

问题我的意思是我希望能够从同一对齐切片多个区域,然后在写入outfile之前加入这些区域。 复杂性是我想提供一个带有坐标列表的文件,其中每行包含两个或多个坐标,在这些坐标之间应该提取和连接数据。

这是一个示例坐标文件

ORF1, 10, 50, exon1 # The above line should produce a slice between columns 10-50 and write to an outfile  
ORF2, 70, 140, exon1  
ORF2, 190, 270, exon2  
ORF2, 500, 800, exon3 # Data should be extracted between the ranges specified here and in the above two lines and then joined (side by side) to produce the outfile.  
ORF3, 1200, 1210, exon1  
etc etc 

这是一个对齐的fasta文件的(小)示例

\>Sample1
ATGGCGACCGTGCACTACTCCCGCCGACCTGGGACCCCGCCGGTCACCCTCACGTCGTCC
CCCAGCATGGATGACGTTGCGACCCCCATCCCCTACCTACCCACATACGCCGAGGCCGTG
GCAGACGCGCCCCCCCCTTACAGAAGCCGCGAGAGTCTGGTGTTCTCCCCGCCTCTTTTT
CCTCACGTGGAGAATGGCACCACCCAACAGTCTTACGATTGCCTAGACTGCGCTTATGAT
GGAATCCACAGACTTCAGCTGGCTTTTCTAAGAATTCGCAAATGCTGTGTACCGGCTTTT
TTAATTCTTTTTGGTATTCTCACCCTTACTGCTGTCGTGGTCGCCATTGTTGCCGTTTTT
CCCGAGGAACCTCCCAACTCAACTACATGA  
\>Sample2
ATGGCGACCGTGCACTACTCCCGCCGACCTGGGACCCCGCCGGTCACCCTCACGTCGTCC
CCCAGCATGGATGACGTTGCGACCCCCATCCCCTACCTACCCACATACGCCGAGGCCGTG
GCAGACGCGCCCCCCCCTTACAGAAGCCGCGAGAGTCTGGTGTTCTCCCCGCCTCTTTTT
CCTCACGTGGAGAATGGCACCACCCAACAGTCTTACGATTGCCTAGACTGCGCTTATGAT
GGAATCCACAGACTTCAGCTGGCTTTTCTAAGAATTCGCAAATGCTGTGTACCGGCTTTT
TTAATTCTTTTTGGTATTCTCACCCTTACTGCTGTCGTGGTCGCCATTGTTGCCGTTTTT
CCCGAGGAACCTCCCAACTCAACTACATGA  

我认为应该有一个相当简单的方法来解决这个问题,可能使用第一列中的信息,与外显子编号配对,但我不能在我的生活中弄清楚这是怎么回事完成。

任何人都可以帮助我吗?

1 个答案:

答案 0 :(得分:1)

  1. 您发布的对齐的fasta文件 - 至少在stackoverflow网页上显示 - 没有编译。根据{{​​3}},说明行应以>开头,而不是\>

  2. 请务必使用use strict; use warnings;运行所有Perl程序。这有助于调试。

  3. 您尚未填充@array。因此,您可能会遇到以下错误:

    Use of uninitialized value $start in pattern match (m//) at perl-5.24.0/lib/site_perl/5.24.0/Bio/SimpleAlign.pm line 1086, <GEN0> line 16.
    Use of uninitialized value $start in concatenation (.) or string at perl-5.24.0/lib/site_perl/5.24.0/Bio/SimpleAlign.pm line 1086, <GEN0> line 16.
    
    ------------- EXCEPTION: Bio::Root::Exception -------------
    MSG: Slice start has to be a positive integer, not []
    STACK: Error::throw
    STACK: Bio::Root::Root::throw perl-5.24.0/lib/site_perl/5.24.0/Bio/Root/Root.pm:444
    STACK: Bio::SimpleAlign::slice perl-5.24.0/lib/site_perl/5.24.0/Bio/SimpleAlign.pm:1086
    STACK: fasta.pl:26
    
  4. 指定合理的值后,例如,

    @array = (1,17);
    

    ......你会得到更合理的结果:

    $ perl fasta.pl
    >Sample1/1-17
    ATGGCGACCGTGCACTA
    >Sample2/1-17
    ATGGCGACCGTGCACTA
    

    HTH!