我在文本文件中有许多未排序的数据,格式如下:
1.0 10
1.8 10
1.1 10
1.9 20
2.8 20
2.1 20
2.9 20
...
对于第二列中的每个值,我想获得第一列中的值的间隔。因此,对于上面的示例,结果应为
1.0 1.8 10
1.9 2.9 20
如何使用c / c ++,awk或其他linux shell工具执行此操作?
答案 0 :(得分:1)
这个单行应该适合你:
awk '!($2 in i){i[$2]=$1}{a[$2]=$1}END{for(x in i)print i[x],a[x],x}' file
输出:
1.0 1.8 10
1.9 2.9 20
答案 1 :(得分:1)
你可以使用这个awk:
awk '{
if (!($2 in nmin) || $1<nmin[$2])
nmin[$2]=$1;
else if ($1>=nmax[$2])
nmax[$2]=$1
}
END {
for (a in nmin)
print nmin[a], nmax[a], a
}
' inFile
答案 2 :(得分:0)
我认为这应该有效:
{ read vStart int &&
while read vNext nextInt; do
if [ $int -ne $nextInt ]; then
echo "$vStart $v $int";
vStart=$vNext;
fi
v=$vNext;
int=$nextInt;
done &&
echo "$vStart $v $int"; }
答案 3 :(得分:0)
要添加其他替代方法,您也可以在R中执行此操作:
d.in <- read.table(file = commandArgs(trailingOnly = T)[1]);
write.table(
aggregate(V1 ~ V2, d.in, function (x) c(min(x),max(x)))[,c(2,1)]
, row.names = F
, col.names = F
, sep = "\t");
然后只需使用Rscript
:
$ Rscript script.R data.txt
1 1.8 10
1.9 2.9 20