查找第一列的最小值和最大值 - 按第二列分组

时间:2013-05-06 14:23:16

标签: linux shell awk

我在文本文件中有许多未排序的数据,格式如下:

1.0 10
1.8 10
1.1 10
1.9 20
2.8 20
2.1 20
2.9 20
...

对于第二列中的每个值,我想获得第一列中的值的间隔。因此,对于上面的示例,结果应为

1.0 1.8 10
1.9 2.9 20

如何使用c / c ++,awk或其他linux shell工具执行此操作?

4 个答案:

答案 0 :(得分:1)

这个单行应该适合你:

 awk '!($2 in i){i[$2]=$1}{a[$2]=$1}END{for(x in i)print i[x],a[x],x}' file

输出:

1.0 1.8 10
1.9 2.9 20

答案 1 :(得分:1)

你可以使用这个awk:

awk '{
        if (!($2 in nmin) || $1<nmin[$2])
            nmin[$2]=$1;
         else if ($1>=nmax[$2])
            nmax[$2]=$1
     }
     END {
        for (a in nmin)
           print nmin[a], nmax[a], a
     }
' inFile

答案 2 :(得分:0)

我认为这应该有效:

{ read vStart int &&
while read vNext nextInt; do
  if [ $int -ne $nextInt ]; then
    echo "$vStart $v $int";
    vStart=$vNext;
  fi

  v=$vNext;
  int=$nextInt;
done &&
echo "$vStart $v $int"; }

答案 3 :(得分:0)

要添加其他替代方法,您也可以在R中执行此操作:

d.in <- read.table(file = commandArgs(trailingOnly = T)[1]);
write.table(
    aggregate(V1 ~ V2, d.in, function (x) c(min(x),max(x)))[,c(2,1)]
    , row.names = F
    , col.names = F
    , sep = "\t");

然后只需使用Rscript

调用此脚本
$ Rscript script.R data.txt 
1       1.8     10
1.9     2.9     20