用awk分隔分隔文件

时间:2014-08-04 23:55:37

标签: awk

我有一个名为test.csv的文件,其中包含以下列表:

3732476,83440122!87368863!83440122!84947700!85873717!84671134!26592084
3732477,84213509!86563958!87368863!83440122!84947700!85873717!84671134!26592084
3732478,86774401!87852418!86774401!86774401!86774425!84022200!83908575!70993638
3732479,86774401!86774425!86774401!86774401!86774425!84022200!83908575!70993638
3732480,86774401!86774425!87726670!86774401!86774425!84022200!83908575!70993638
3732481,86301748!86301748!86769792!86434407!27580741!86730857!27953536!83913569
3732482,27500429!83445205!27500429!27500702!83445205!88324688!27500958
3732483,27500429!83445205!27500429!27500702!83445205!88324688!27500958
3732484,87920354!89442350!87920354!89442290!27632964!27633136!86450151
3732485,84406968!86504550!86348235!87708562!86279816!84406968!88066692

该块由ID后跟一系列数字组成。 ID和数字之间的分隔符是逗号(,),并且数字系列具有感叹号(!)的分隔符。系列的数量各不相同。

我需要显示:ID,Series,系列数量如此

对于3732485,84406968行!86504550!86348235!87708562!86279816!84406968!88066692 我明白了:

3732485,84406968,1
3732485,86504550,2
3732485,86348235,3
3732485,87708562,4
3732485,86279816,5
3732485,84406968,6
3732485,88066692,7

我想我可以通过AWK做到这一点,但我不是那么敏捷。我可以用NR获得系列号。我可以使用字段分隔符FS分隔字段,但我无法打印系列值旁边的$ 1字段,后跟系列序列号。

有人想指出我正确的方向吗?

谢谢!

1 个答案:

答案 0 :(得分:3)

使用awk

awk -F[,\!] -v OFS="," '{for(i=2;i<=NF;i++) print $1,$i,(i-1)}' file
3732476,83440122,1
3732476,87368863,2
...
...
3732485,84406968,6
3732485,88066692,7
  • 将输入字段分隔符设置为,!。你需要逃避!
  • 将输出字段分隔符设置为,
  • 从第二列迭代到最后一列并打印第一列,剩余列和计数。您在输出中根据需要从计数中减去1。

注意:我没有打印整个输出,但你得到了图片。