使用perl进行哈希键排序?

时间:2015-01-14 04:26:02

标签: perl sorting hash

我需要使用perl对哈希键进行排序,我还需要在密钥中允许重复。所以我打算在perl中检查exists方法如果它存在,那么我增加最后一位数,然后我将存储到哈希值。 我尝试了以下代码:

use strict;
use warnings;
use iPerl::Basic qw(_save_file _open_file);
my $xml = $ARGV[0];
my ($xmlcnt,$backcnt,$refcnt,$name,$year) = "";
my %sort = ();
if(($#ARGV != 0) or(not -f "$xml") or($xml!~ m{\.xml$}i)){ 
    print_exit("\t\tSYSTAX ERROR: <EXE> <xml File>\n\n")
};
$xmlcnt=_open_file($xml);
$xmlcnt =~ s{<back(?: [^>]+)?>(?:(?!</?back[ >]).)*</back>}{
    $backcnt = $&;

    while($backcnt =~ m{<ref(?: [^>]+)?>(?:(?!<ref[ >]).)*</ref>}igs){
        $refcnt = $&;
        $name = $1 if($refcnt =~ m{<person-group(?: [^>]+)?>((?:(?!</?person-group[ >]).)*)</person-group>}is);
        $year = $1 if($refcnt =~ m{<year>((?:(?!</?year[ >]).)*)</year>}is);
        $name =~ s{</?(?:string-name|surname|given-names)>}{}ig;
        my $count = 1;
        my $keys="$name $year\E$count";

        if(exists ($sort{$keys})){

            $keys =~ s{(\d)$}{my $icr=$1;$icr++;qq($icr)}e;

            #print"$keys\n";
            $sort{$keys}="$refcnt";

        }
        else
        {
            $sort{$keys}="$refcnt";
        }


print join("\n",keys %sort);
    }
qq($backcnt)
}igse;

    my @keys = sort {
 $sort{$a} <=>  $sort{$b}
# or
# "\L$a" cmp "\L$b"
} keys %sort;
# print join("\n",@keys);
sub print_exit {
    my $msg = shift;
    #print "\n$msg";
    exit;
}

请有人告诉我这里出了什么问题吗? 输入:

thieooieroh
apple
apple
highefhfe
bufghifeh

输出:

 apple
 apple
 bufghifeh
 highefhfe
 thieooieroh

提前致谢。

1 个答案:

答案 0 :(得分:2)

从简短的代码看,您似乎希望将refcounts存储为哈希值中的值,并且能够为单个密钥设置多个计数。通过使用数组散列(通常缩写为HoA),这很容易实现。根据定义,每个键必须是唯一的,但关联的值可以是一个引用,允许您在该键下存储多个项目,或者构建更复杂的数据结构。

#!/usr/bin/env perl    

use strict;
use warnings;
use 5.010;

my %hash;

while (my $line = <DATA>) {
  chomp $line;
  my ($key, $count) = split ',', $line;
  push @{$hash{$key}}, $count;
}

for my $key (sort keys %hash) {
  my $values = $hash{$key};
  for (@$values) {
    say "$key ($_)";
  }
} 

__DATA__
thieooieroh,1
apple,2
apple,3
highefhfe,4
bufghifeh,5

输出:

apple (2)
apple (3)
bufghifeh (5)
highefhfe (4)
thieooieroh (1)

如果您实际上并不关心使用每个键存储多个数据项,而只关注每个键出现的次数,那么它甚至更简单。将上面代码中的两个循环更改为:

while (my $line = <DATA>) {
  chomp $line;
  $hash{$line}++;
}

for my $key (sort keys %hash) {
  say $key for 1 .. $hash{$key};
}

你得到了输出

apple
apple
bufghifeh
highefhfe
thieooieroh

至于发布的其他代码,请不要尝试使用regex解析XML。 常规表达式无法解析任意XML 超出粗略的第一近似值,因为XML在结构上不是“常规”。 CPAN上有许多精细的XML解析模块,它们可以为您正确地解析XML,同时还需要比尝试编写自己的解析器更少的工作量。使用其中之一。不是正则表达式。