我有一个数据集会有很多列。我需要做的是根据另一列汇总某一列。例如,
ID Volume
A 20
D 60
B 10
A 50
K 30
B 100
D 80
所以我想要根据音量对所有不同ID(A,B,C ...)进行汇总,并按该总和进行排序
结果就像
D 140
B 110
A 70
K 30
我将如何在perl中实现这一目标?
答案 0 :(得分:3)
#!/usr/bin/perl
use strict;
use warnings;
my %ids_and_sums;
while (<>) {
# The regex will only consider one single uppercase letter as
# an ID; in case your IDs may look different, you could prepend
# your 'ID Volume' line with a character which will never be part
# of an ID, and modify below regex to meet your needs
my ($id, $volume) = m/^([A-Z])\s+(\d+)/;
if ($id and $volume) {
$ids_and_sums{$id} += $volume;
}
}
foreach my $key (sort {$ids_and_sums{$b} <=> $ids_and_sums{$a}} keys %ids_and_sums) {
print "$key: $ids_and_sums{$key}\n";
}
打印:
D: 140
B: 110
A: 70
K: 30
编辑:我修改了代码,以便排序按照总和的降序排列。
答案 1 :(得分:2)
你可以这样做:
perl -lnae '$H{$F[0]} += $F[1];END { print $_." ".$H{$_} for(keys %H) }'
将所有输入文件的第一行作为标准输入传递。
您可以让Perl将标题行丢弃为:
perl -lnae 'BEGIN{$i=1;}if($i){$i=0;next;}$H{$F[0]} += $F[1];END { print $_." ".$H{$_ } for(keys %H) }' file
答案 2 :(得分:1)
$, = ' '; # set output field separator
$\ = "\n"; # set output record separator
while (<>) {
($Fld1,$Fld2) = split(' ', $_, -1);
$map{$Fld1} += $Fld2;
}
foreach $i (keys %map) {
print $i, $map{$i};
}
类似这样的事情