我以前曾使用awk将一个主要为零的巨大数据表缩小为一个只有有趣的行(没有太多零的行)的较小表,如下所示:
awk -F '\t' '{count=0} {for(i=2; i<30; i++) if($i==0) count++} {if(count<5) print $0}' BigTable > SmallerTable
现在,我想过滤一个相似的表,以在大多数“女性”列中查找具有非零值的行,并在大多数“男性”列中查找具有零的行。我尝试使用相同的awk逻辑,但是我的代码返回了输入文件的所有行。
#! /usr/bin/awk -f
FS="\t"
{countF=0} {for(i=2; i<7; i++) if($i==0) countF++}
# count zeros in female columns 2-6
{countM=0} {for(i=7; i<12; i++) if($i==0) countM++}
# count zeros in male columns 7-12
{if (countF<2 && countM>3) {print $0}}
# if fewer than 2/5 females AND more than 3/5 males are zero, print line
我的输入文件开始如下:
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN F_CR1 F_CR2 F_CR3 F_CR4 F_CR6 M_CR10 M_CR5 M_CR7 M_CR8 M_CR9
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 14727 13526 13318 13862 11040 18975 21411 20079 16285 15611
CCGGTGTGACAACTGTAGTGAACTCAGCTCA 23 32 26 15 28 28 42 29 8 22
AACCAAATCTACAAACAGGAGATGTTGTTCT 107 110 118 106 95 100 121 132 92 90
GAAATAGAACAGGCCTGGAAGCCATGTCAAA 15 15 16 12 11 31 23 19 9 28
我是否弄乱了打印行中的语法?任何建议,不胜感激!
答案 0 :(得分:3)
将FS="\t"
更改为BEGIN{FS="\t"}
。现在,该分配的结果是一个真实条件,它调用了打印每行的默认操作。
然后将您的shell脚本更改为:
/usr/bin/awk '
BEGIN { FS="\t" }
{
# count zeros in female columns
countF=0
for(i=2; i<=6; i++) {
if ($i==0) {
countF++
}
}
# count zeros in male columns
countM=0
for(; i<=NF; i++) {
if ($i==0) {
countM++
}
}
}
# if fewer than 2/5 females AND more than 3/5 males are zero, print line
countF<2 && countM>3
' "$@"
因此,当/当您需要将shell args分离为awk args和awk变量分配时,它更加笨拙,并且以后可以更轻松地进行增强(shebang对此没有用)。
也可以考虑将其缩写并删除硬编码的“男性/女性”限制,而应从标题行获取它们:
/usr/bin/awk '
BEGIN { FS="\t" }
FNR==1 {
for (i=2; i<=NF; i++) {
sub(/_.*/,"",$i)
gender[i] = $i
}
next
}
{
for (i=2; i<=NF; i++) {
count[gender[i]] += ($i==0)
}
}
count["F"]<2 && count["M"]>3
' "$@"
以上内容未经测试,因为您没有提供预期的输出供我们测试。