为DNA序列Perl创建数组的哈希值

时间:2019-03-23 18:10:07

标签: arrays perl hash dna-sequence

我有一个名为%id2seq的哈希,其中包含键$id引用的DNA序列字符串。我希望能够通过使用字符串中的位置作为参考来操纵DNA序列。例如,如果我的DNA序列是ACGTG,则我的$id将是Sequence 1,我的$id2seq{'Sequence 1'}将是ACGTG,而我的“理论” {{1 }}为$id2seq{'Sequence 1'}[3]。 我试图创建一个数组的哈希来做到这一点,但是我得到一个奇怪的输出(见下面的输出)。我很确定这只是我的格式。任何输入都会有帮助,我先感谢您。

以下是输入文件的摘要:

G

这是我目前的尝试的摘要。 (我有一个哈希表,访问带有注释掉的DNA序列的文件):

>Sequence 1
TCAGAACCAGTTATAAATTTATCATTTCCTTCTCCACTCCT
>Sequence 2
CCCACGCAGCCGCCCTCCTCCCCGGTCACTGACTGGTCCTG
>Sequence 3
TCGACCCTCTGGAACCTATCAGGGACCACAGTCAGCCAGGCAAG

输出

use strict;
use warnings;

print "Please enter the filename of the fasta sequence data: ";
my $filename1 = <STDIN>;

#Remove newline from file
chomp $filename1;

#Open the file and store each dna seq in hash
my %id2seq = ();
my $id = '';
open (FILE, '<', $filename1) or die "Cannot open $filename1.",$!;
my $dna;
while (<FILE>)
{
    if($_ =~ /^>(.+)/)
    {
        $id = $1;
    }
    else
    {
        ## $id2seq{$id} = $_; used to create hash table
        @seqs = split '', $_;
        $id2seq{$id} = [ @seqs ];
    }
}
close FILE;
foreach $id (keys %id2seq)
{
    print "$id2seq{$id}[@seqs]\n\n";
}

3 个答案:

答案 0 :(得分:0)

@seqs包含最后一个序列中的字符。 $id2seq{$id}[@seqs]实际上表示$id2seq{$id}[N],其中N是最后一个序列的长度。因此,您从每个序列中仅打印一个字符,如果该序列比最后一个序列短,则会得到警告。

如果您print仅用于调试,则使用以下命令会更容易:

use Data::Dumper;
print Dumper(\%id2seq);

否则,您必须在嵌套循环中遍历$id2seq{$id}

答案 1 :(得分:0)

此行不正确:

print "$id2seq{$id}[@seqs]\n\n";

$id2seq{$id}是一个数组引用,所以正确的打印方式是

print "@{ $id2seq{$id} }\n\n";

一个完整的例子是:

#!/usr/bin/perl
use warnings;
use strict;

my $current_id;
my %id2seq;
while (<DATA>) {
    chomp;
    if (/^>(.+)/) {
        $current_id = $1;
    } else {
        $id2seq{$current_id} = [ split(//) ];
    }
}

print "@{ $_ }\n" foreach (values %id2seq);

exit 0;

__DATA__
>Sequence 1
TCAGAACCAGTTATAAATTTATCATTTCCTTCTCCACTCCT
>Sequence 2
CCCACGCAGCCGCCCTCCTCCCCGGTCACTGACTGGTCCTG
>Sequence 3
TCGACCCTCTGGAACCTATCAGGGACCACAGTCAGCCAGGCAAG

试运行:

$ perl dummy.pl
T C G A C C C T C T G G A A C C T A T C A G G G A C C A C A G T C A G C C A G G C A A G
C C C A C G C A G C C G C C C T C C T C C C C G G T C A C T G A C T G G T C C T G
T C A G A A C C A G T T A T A A A T T T A T C A T T T C C T T C T C C A C T C C T

答案 2 :(得分:-1)

您需要打印

$id2seq{$id}[3]\n\n";

获取第四个值。另外,您从未将@seqs定义为“ my”如此严格,并且警告在抱怨,因此“在连接(。)或第37行的字符串中使用单位化值”。删除警告/严格或定义@seqs