我有一个包含数百万行的文件,如下所示:
chr1 18217866 . T A 52.2409 . AB=0;ABP=0;AC=2;AF=0;AN=2;AO=2;CIGAR=1X;DP=2;DPB=2;DPRA=0;EPP=7.35324;EPPR=0;GTI=0;LEN=1;MEANALT=1;MQM=60;MQMR=0;NS=1;NUMALT=1;ODDS=7.37776;PAIRED=0;PAIREDR=0;PAO=0;PQA=0;PQR=0;PRO=0;QA=74;QR=0;RO=0;RPP=7.35324;RPPR=0;RUN=1;SAF=2;SAP=7.35324;SAR=0;SRF=0;SRP=0;SRR=0;TYPE=snp GT:DP:RO:QR:AO:QA:GL 1/1:2:0:0:2:74:-7.03,-0.60206,0
我正在尝试找到第AF=0
条所在的第二列中与给定数字匹配的所有行:
grep '1821786*' file.vcf | cut -f 8 | awk -F \; '$4 == 0 {print $4}' | wc -l
问题在于:
grep '1821786*' file.vcf | cut -f 8 |
打印:AF=0
,以便与awk语句中$4 == 0
的比较不匹配。
有没有办法剥离AF=
以便awk语句与第4列中的0
匹配?
答案 0 :(得分:3)
一切都可以在单个awk中完成,可以更准确地完成:
awk -F '[;[:blank:]]+' '$2 ~ /^1821786/ && $11 == "AF=0"{++n} END{print n}' file.vcf
-F '[;[:blank:]]+'
将输入字段分隔符设置为分号或空格/制表符。
答案 1 :(得分:0)
实际上看起来awk有一个替代函数在这里很有用:
grep '1821786*' file.vcf | cut -f 8 | awk -F \; '{sub(/AF=/,"")} $4 ==0 {print $4}' | wc -l
然后可以根据需要将其用于vcf文件中的任何其他信息。