我有一个csv文件,如下所示:
a,b,c,2
d,e,f,3
g,h,i,3
j,k,l,4
m,n,o,5
p,q,r,6
s,t,u,7
v,w,x,8
y,z,zz,9
我想在这个数据中分配quintiles(就像我们在sql中做的那样),在linux中使用优选的bash命令。如果分配为新列,五分位数将使最终输出看起来像:
a,b,c,2, 1
d,e,f,3, 1
g,h,i,3, 2
j,k,l,4, 2
m,n,o,5, 3
p,q,r,6, 3
s,t,u,7, 4
v,w,x,8, 4
y,z,z,9, 5
我能够实现的唯一功能是在csv文件中添加一个新的增量列:
`awk '{$3=","a[$3]++}1' f1.csv > f2.csv`
但不确定五分之一是怎么回事。请帮忙。感谢。
答案 0 :(得分:1)
awk '{a[NR]=$0}
END{
for(i=1;i<=NR;i++) {
p=100/NR*i
q=1
if(p>20){q=2}
if(p>40){q=3}
if(p>60){q=4}
if(p>80){q=5}
print a[i] ", " q
}
}' file
输出:
a,b,c,2, 1 d,e,f,3, 2 g,h,i,3, 2 j,k,l,4, 3 m,n,o,5, 3 p,q,r,6, 4 s,t,u,7, 4 v,w,x,8, 5 y,z,zz,9, 5
答案 1 :(得分:1)
简短wc
+ awk
方法:
awk -v n=$(cat file | wc -l) \
'BEGIN{ OFS=","; n=sprintf("%.f\n", n*0.2); c=1 }
{ $(NF+1)=" "c }!(NR % n){ ++c }1' file
n=$(cat file | wc -l)
- 获取输入文件file
n*0.2
- 范围的1/5(20%)$(NF+1)=" "c
- 设置当前等级值c
输出:
a,b,c,2, 1
d,e,f,3, 1
g,h,i,3, 2
j,k,l,4, 2
m,n,o,5, 3
p,q,r,6, 3
s,t,u,7, 4
v,w,x,8, 4
y,z,zz,9, 5