NTILE csv中的一列 - Linux

时间:2018-02-17 19:25:33

标签: linux bash awk

我有一个csv文件,如下所示:

a,b,c,2
d,e,f,3
g,h,i,3
j,k,l,4
m,n,o,5
p,q,r,6
s,t,u,7
v,w,x,8
y,z,zz,9

我想在这个数据中分配quintiles(就像我们在sql中做的那样),在linux中使用优选的bash命令。如果分配为新列,五分位数将使最终输出看起来像:

a,b,c,2, 1
d,e,f,3, 1
g,h,i,3, 2
j,k,l,4, 2
m,n,o,5, 3
p,q,r,6, 3
s,t,u,7, 4
v,w,x,8, 4
y,z,z,9, 5

我能够实现的唯一功能是在csv文件中添加一个新的增量列:

`awk '{$3=","a[$3]++}1' f1.csv > f2.csv`

但不确定五分之一是怎么回事。请帮忙。感谢。

2 个答案:

答案 0 :(得分:1)

awk '{a[NR]=$0}
     END{
       for(i=1;i<=NR;i++) {
         p=100/NR*i
         q=1
         if(p>20){q=2}
         if(p>40){q=3}
         if(p>60){q=4}
         if(p>80){q=5}
         print a[i] ", " q
       }
     }' file

输出:

a,b,c,2, 1
d,e,f,3, 2
g,h,i,3, 2
j,k,l,4, 3
m,n,o,5, 3
p,q,r,6, 4
s,t,u,7, 4
v,w,x,8, 5
y,z,zz,9, 5

答案 1 :(得分:1)

简短wc + awk方法:

awk -v n=$(cat file | wc -l) \
'BEGIN{ OFS=","; n=sprintf("%.f\n", n*0.2); c=1 }
 { $(NF+1)=" "c }!(NR % n){ ++c }1' file
  • n=$(cat file | wc -l) - 获取输入文件file
  • 的总行数
  • n*0.2 - 范围的1/5(20%)
  • $(NF+1)=" "c - 设置当前等级c
  • 的下一个最后一个字段

输出:

a,b,c,2, 1
d,e,f,3, 1
g,h,i,3, 2
j,k,l,4, 2
m,n,o,5, 3
p,q,r,6, 3
s,t,u,7, 4
v,w,x,8, 4
y,z,zz,9, 5