基本上,我有一个从另一个团队传入我的多列文件。我需要从第4列到第12列中获取最后4个字符。问题是,第5列到第12列可能不存在,因为在将文件发送给我时可能不会填充它们。
我当前的想法/代码如下所示:
for ((i=4;i<12;i++));
do
letterCode=`echo $line | awk '{if($i) print substr($i, (length($i)-4), 4)}'`
done
我的数据看起来像这样。我不需要最后一列的最后4个字符,但我仍然需要最后一列。
123456789 LTT0010002 2014090820140908 W20140908B337 W201409111D01 5000600000000000
987654321 LTT0010001 2014091120140911 W201409111D01 5000600000000000
543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000
678954321 LTT0010001 2014091220140912 W20140912B122 W20140908B337 5000600000000000
我需要抓住
B337 1D01
1D01
M030 M030 M030
B122 B337
等等。
然而,awk似乎讨厌这个。有什么建议吗?
答案 0 :(得分:3)
将输入数据放在名为data
的文件中
$ awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}' data
B337 1D01
1D01
M030 M030 M030
B122 B337
说明:
awk
将隐式循环遍历文件中的所有行。对于每一行:
s=""
这会将变量s
初始化为空字符串。
for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)}
对于从4到倒数第二个的每一列,提取最后四个字符并将它们附加到字符串s
。
print s
最后,打印s
。
如果该行位于名为line
的shell变量中:
echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}'
这与上面的代码相同。唯一的区别是,我们不是在awk
命令行上提供文件名,而是在awk
上向stdin
提供输入数据。
将awk
输出保存为bash变量:
$ line="543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000"
$ x="$(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}')"
$ echo $x
M030 M030 M030
由于存在多个值,因此保存awk
输出保存到bash
数组可能会更灵活:
$ line="543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000"
$ x=($(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}'))
查看bash
数组中确切内容的最便捷方法是使用declare -p
:
$ declare -p x
declare -a x='([0]="M030" [1]="M030" [2]="M030")'
每个输出值都可以作为数组中的单独条目访问。
$ echo "really long parm string$(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}')"
really long parm string M030 M030 M030
或者,awk
可以进行格式化:
$ echo "$line" | awk -v a="really long parm string" '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print a s}'
really long parm string M030 M030 M030
在评论中按要求格式化:
$ echo "$line" | awk -v a="really long parm string" '{s="";for (i=4;i<NF;i++) {s=s a" "substr($i,length($i)-3)" "};print s}'
really long parm string M030 really long parm string M030 really long parm string M030
答案 1 :(得分:1)
与John1024基本相同,实现略有不同。
awk '{for (i=4; i<NF; i++) {printf "%s%s", substr($i, length($i)-3), (i!=(NF-1))?OFS:ORS}}' file