当列可能存在或不存在时,如何获取多列文件的最后4个字符?

时间:2014-10-02 17:33:48

标签: linux unix awk

基本上,我有一个从另一个团队传入我的多列文件。我需要从第4列到第12列中获取最后4个字符。问题是,第5列到第12列可能不存在,因为在将文件发送给我时可能不会填充它们。

我当前的想法/代码如下所示:

for ((i=4;i<12;i++));
do
    letterCode=`echo $line | awk  '{if($i) print substr($i, (length($i)-4), 4)}'`
done

我的数据看起来像这样。我不需要最后一列的最后4个字符,但我仍然需要最后一列。

123456789 LTT0010002 2014090820140908 W20140908B337 W201409111D01 5000600000000000
987654321 LTT0010001 2014091120140911 W201409111D01 5000600000000000
543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000
678954321 LTT0010001 2014091220140912 W20140912B122 W20140908B337 5000600000000000

我需要抓住

B337 1D01
1D01 
M030 M030 M030 
B122 B337

等等。

然而,awk似乎讨厌这个。有什么建议吗?

2 个答案:

答案 0 :(得分:3)

将输入数据放在名为data的文件中

$ awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}' data
 B337 1D01
 1D01
 M030 M030 M030
 B122 B337

说明:

awk将隐式循环遍历文件中的所有行。对于每一行:

  • s=""

    这会将变量s初始化为空字符串。

  • for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)}

    对于从4到倒数第二个的每一列,提取最后四个字符并将它们附加到字符串s

  • print s

    最后,打印s

一次处理一行

如果该行位于名为line的shell变量中:

echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}'

这与上面的代码相同。唯一的区别是,我们不是在awk命令行上提供文件名,而是在awk上向stdin提供输入数据。

将输出保存为bash变量或数组

awk输出保存为bash变量:

$ line="543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000"
$ x="$(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}')"
$ echo $x
M030 M030 M030

由于存在多个值,因此保存awk输出保存到bash数组可能会更灵活:

$ line="543216789 LTT0010002 2014082720140827 B20140827M030 B20140827M030 B20140827M030 5000600000000000"
$ x=($(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}'))

查看bash数组中确切内容的最便捷方法是使用declare -p

$ declare -p x
declare -a x='([0]="M030" [1]="M030" [2]="M030")'

每个输出值都可以作为数组中的单独条目访问。

直接显示结果而不保存到变量

$ echo "really long parm string$(echo "$line" | awk '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print s}')"
really long parm string M030 M030 M030

或者,awk可以进行格式化:

$ echo "$line" | awk -v a="really long parm string" '{s="";for (i=4;i<NF;i++) {s=s" "substr($i,length($i)-3)};print a s}'
really long parm string M030 M030 M030

备用输出格式

在评论中按要求格式化:

$ echo "$line" | awk -v a="really long parm string" '{s="";for (i=4;i<NF;i++) {s=s a" "substr($i,length($i)-3)" "};print s}'
really long parm string M030 really long parm string M030 really long parm string M030

答案 1 :(得分:1)

与John1024基本相同,实现略有不同。

awk '{for (i=4; i<NF; i++) {printf "%s%s", substr($i, length($i)-3), (i!=(NF-1))?OFS:ORS}}' file