Awk:从CSV到PDB(蛋白质数据库)

时间:2018-12-21 10:41:35

标签: if-statement awk printf

我有一个具有以下格式的CSV文件:

ATOM,3662,H,VAL,A,257,6.111,31.650,13.338,1.00,0.00,H
ATOM,3663,HA,VAL,A,257,3.180,31.995,13.768,1.00,0.00,H
ATOM,3664,HB,VAL,A,257,4.726,32.321,11.170,1.00,0.00,H
ATOM,3665,HG11,VAL,A,257,2.387,31.587,10.892,1.00,0.00,H

我想根据PDB标准(固定位置)对其进行格式化:

ATOM   3662  H   VAL A 257       6.111  31.650  13.338  1.00  0.00           H

ATOM   3663  HA  VAL A 257       3.180  31.995  13.768  1.00  0.00           H

ATOM   3664  HB  VAL A 257       4.726  32.321  11.170  1.00  0.00           H

ATOM   3665 HG11 VAL A 257       2.387  31.587  10.892  1.00  0.00           H

可以认为,除了第一和第三列之外,其他所有内容都是右对齐的。首先不是问题。但是,第三个长度为1-3时,它是左对齐的,但是当长度为4时,它是向左移动一个位置。

我有一个几乎可以解决问题的AWK单线:

awk -F, 'BEGIN {OFS=FS} {if(length($3) == 4 ) {pad=" "} else {pad="  "}} {printf "%-6s%5s%s%-4s%4s%2s%4s%11s%8s%8s%6s%6s%12s\n", $1, $2, $pad, $3, $4, $5, $6, $7, $8, $9, $10, $11, $12}' < 1iy8_min.csv

除了两件事:

  1. 第三列除外。我当时正在考虑添加一个条件,该条件会根据字段长度更改第三列之前的填充,但是我无法使其起作用(上面的单行代码已说明了这一点)。

  2. 另一个问题是,如果字段之间没有空格,则填充根本不起作用。

    ATOM   3799  HH   TYR A 267     -5.713  16.149  26.838  1.00  0.00           H
    
    HETATM 3801  O7N  NADA12688.285     19.839  10.489    1.00 20.51     O   
    

在上面的示例中,第二行应为:

HETATM 3801  O7N  NAD A1268      8.285  19.839  10.489  1.00 20.51           O

但是因为字段5和6之间没有空格,所以所有内容都被重新排列。它认为A1268被认为是一个领域。可能是因为默认的awk分隔符似乎是空白。是否可以使其与位置相关?

更新:以下内容解决了该问题,但第三列除外:

awk 'BEGIN {FS = ",";OFS = ""} { if(length($3) == 4 ) {pad = sprintf("%s", " ")} else {pad = sprintf("%2s", " ")} } { if(length($3) == 4 ) {pad2 = sprintf("%s", " ")} else {pad2 = sprintf("%s", "")} } {printf "%-6s%5s%s%-4s%s%3s%2s%4s%11s%8s%8s%6s%6s%12s\n", $1, $2, pad, $3, pad2, $4, $5, $6, $7, $8, $9, $10, $11, $12}' 1iy8_min.csv

但是,OFS似乎被忽略了...

UPDATE2:问题出在输入文件中。对于那个很抱歉。解决了。​​

工作脚本:

awk 'BEGIN{OFS=FS=","}{$7=sprintf("%.3f",$7)}1{$8=sprintf("%.3f",$8)}1{$9=sprintf("%.3f",$9)}1' ${file} | awk 'BEGIN {FS =","; OFS=""} { if(length($3) == 4 ) {pad = sprintf("%s", " ")} else {pad = sprintf("%2s", " ")} } { if(length($3) == 4 ) {pad2 = sprintf("%s", " ")} else {pad2 = sprintf("%s", "")} } {printf "%-6s%5s%s%-4s%s%3s%2s%4s%12s%8s%8s%6s%6s%12s\n", $1, $2, pad, $3, pad2, $4, $5, $6, $7, $8, $9, $10, $11, $12}' > ${root}_csv.pdb

0 个答案:

没有答案