在数组散列中向数组添加新元素

时间:2015-02-28 01:24:10

标签: perl data-structures hashtable associative-array perl-data-structures

我想在数组的散列中读取并保存文件的内容。每行的第一列是关键。 然后,我想读取目录中的文件,并根据密钥将文件名添加到数组的末尾!

文件($ file_info)

AANB    John    male
S00V    Sara    female
SBBA    Anna    female

目录中的文件:

AANB.txt
SBBA.txt
S00V.txt

预期产出:

AANB    John    male    AANB.txt
S00V    Sara    female  S00V.txt
SBBA    Anna    female  SBBA.txt

这是脚本本身:

#!/usr/bin/perl

use strict;
use warnings;

my %all_samples=();
my $file_info = $ARGV[0];

open(FH, "<$file_info");

while(<FH>) {
    chomp;
    my @line = split("\t| ", $_);

    push(@{$all_samples{$line[0]}}, $_);
}

my $dir = ".";
opendir(DIR, $dir);
my @files = grep(/\.txt$/,readdir(DIR));
closedir(DIR);

foreach my $file (@files) {
    foreach my $k (keys %all_samples){
        foreach my $element (@{ $all_samples{$k} }){
            my @element = split(' ', $element);
            if ($file =~ m/$element[0]/) {
                push @{$all_samples{$element}}, $file;
            }
            else {
                next;
            }
        }
    }

}

foreach my $k (keys %all_samples) {
    foreach my $element (@{ $all_samples{$k} }) {
        print $element,"\n";
    }
}

但输出不是我的预期

AANB    John    male
SBBA.txt1
S00V    Sara    female
SBBA    Anna    female
S00V.txt1
AANB.txt1

2 个答案:

答案 0 :(得分:2)

我认为

        my @element = split(' ', $element);
        if ($file =~ m/$element[0]/) {
            push @{$all_samples{$element}}, $file;
        }

没有做正确的事情,所以$all_samples{$element}}是一个新的arrayref。您正在打印六个一个元素数组而不是三个两个元素数组。

但是,每行一次打印数组元素并没有帮助。

我认为你的最后一部分应该更像这样:

foreach my $k (keys %all_samples) {
    print join( "\t", @{ $all_samples{$k} } ) . "\n"
}

一般来说,我认为您过度复杂化此脚本。以下是我的写作方式:

#!/usr/bin/perl

use strict;
use warnings;

my $all_samples={};

while(<>) {
    chomp;
    # Note that I'm using variable names here to document
    # The format of the file being read. This makes for
    # easier trouble-shooting -- if a column is missing,
    # It's easier to tell that $file_base_name shouldn't be
    # 'Anna' than that $line[0] should not be 'Anna'.
    my ( $file_base_name, $given_name, $sex ) = split("\t", $_);
    push(@{$all_samples->{$file_base_name} }, ( $file_base_name, $given_name, $sex ) );
}

my $dir = ".";
opendir(DIR, $dir);
my @files = grep(/\.txt$/,readdir(DIR));
closedir(DIR);

FILE: foreach my $file (@files) {
    BASE: foreach my $base (keys %{$all_samples}){
        next BASE unless( $file =~ /$base/ );
        push @{$all_samples->{$base}}, $file;
    }
}

foreach my $k (keys %{$all_samples} ) {
    print join( "\t", @{ $all_samples->{$k} } ) . "\n";
}

我更喜欢hashrefs到哈希,因为我倾向于处理嵌套数据结构 - 我更习惯于看到$all_samples->{$k}而不是$all_samples{$k} ...更重要的是,我&# 39; m使用arrayref的全部功能,这意味着我不必重新拆分已被拆分一次的数组。

-G。 Cito提出了一个有趣的观点:我为什么要使用

push(@{$all_samples->{$file_base_name} }, ( $file_base_name, $given_name, $sex ) );

而不是

push(@{$all_samples->{$file_base_name} }, [ $file_base_name, $given_name, $sex ] );

后者在语法上没有任何错误,但它并不是我想要实现的目标:

让我们看看$ all_samples-&gt; {$ base}在

之后会是什么样子
push @{$all_samples->{$base}}, $file;

如果最初的推动是这样的:

push(@{$all_samples->{$file_base_name} }, [ $file_base_name, $given_name, $sex ] );

@{$all_samples->{$base}}看起来像这样:

(
    [ $file_base_name, $given_name, $sex ],
    $file
)

如果相反,我们使用

push(@{$all_samples->{$file_base_name} }, ( $file_base_name, $given_name, $sex ) );
@{$all_samples->{$base}}之后

push @{$all_samples->{$base}}, $file看起来像这样:

(
    $file_base_name, 
    $given_name, 
    $sex, 
    $file
)

例如:

(
    "AANB",
    "John",   
    "male",    
    "AANB.txt"
)

所以当我们打印数组时:

print join( "\t", @{ $all_samples->{$k} } ) . "\n";

将打印

AANB    John    male    AANB.txt

答案 1 :(得分:1)

这是创建数组哈希的一种更简单的方法 - 仅为方便起见,从DATA读取而不是文件:

#!perl
use strict ;
use warnings ; 
use Data::Dumper ;

my $samples  ; 

while (<DATA>){
      chomp;
      map { $samples->{$_->[0]} = [@$_[1..2]] } [ split/\s+/ ];
 }

 push @{$samples->{$_}} , $_.".txt" for keys %$samples ;

 print  Dumper  \$samples ;

 __DATA__
AANB    John    male
S00V    Sara    female
SBBA    Anna    female

由于文件名已知,您只需从字符串构造它们即可。或者那是不可能的?也许在推入阵列之前确认它们存在文件测试(参见perldoc -f -X)会避免创建错误数据,但仍允许您以这种方式构建条目。