Python:在subprocess.call中使用带有多个变量的awk

时间:2017-04-25 14:14:06

标签: python awk terminal subprocess pdb

我正在使用包含多个记录的PDB文件。如果您不熟悉此类格式,请参阅以下示例文件:

HEADER GROWTH FACTOR 16-JAN-96 1KLA

SOURCE MOL_ID:1;

备注210实验细节

备注210实验类型:NMR

SSBOND 7 CYS B 15 CYS B 78 1555 1555 2.02

SSBOND 8 CYS B 44 CYS B 109 1555 1555 2.01

模型1

ATOM 1 N ALA A 1 9.028 -1.949 -15.575 1.00 0.00 N

ATOM 2 CA ALA A 1 7.983 -2.064 -14.518 1.00 0.00 C

TER

ATOM 1770 N ALA B 1 -9.094 -0.752 15.747 1.00 0.00 N

ATOM 1771 CA ALA B 1 -8.052 -0.952 14.700 1.00 0.00 C

ENDMDL

CONECT 98 225

CONECT 215 1211

END

我想只保留此文件中的某些记录:(SSBOND,ATOM,MODEL,TER,CONECT,ENDMDL)并删除其他记录。为此我创建了一个python脚本,它在输入中获取pdb_file.pdb并创建一个输出文件pdb_clean.pdb:

import subprocess

def prep_molecule(pdb_file):

    pdb_fileName = pdb_file.split(".")[0]
    subprocess.call(['awk \'"\$1==\\"SSBOND\\" || \$1==\\"ATOM\\" || \$1==\\"TER\\" || \$1==\\"CONECT\\" || \$1==\\"END\\" || \$1==\\"MODEL\\" || \$1==\\"ENDMDL\\"\\' +pdb_file+' > '+pdb_fileName+'_clean.pdb"'],shell=True)

也许问题来自引号。我一直有同样的错误:

awk: command line:1: ^syntax error

实际上我正在编写Python脚本,因为awk并不是我运行的唯一命令。我的目标是自动化一整套蛋白质动力学,所以Python是必要的......

提前致谢!

1 个答案:

答案 0 :(得分:0)

我的建议是只使用awk因为python对于这个相当简单的任务似乎有点不可能,但是,这里是一个在python中使用awk的解决方案:

文件:

$ cat pbd_file.pbd
HEADER GROWTH FACTOR 16-JAN-96 1KLA

SOURCE MOL_ID: 1;

REMARK 210 EXPERIMENTAL DETAILS

REMARK 210 EXPERIMENT TYPE :NMR

SSBOND 7 CYS B 15 CYS B 78 1555 1555 2.02

SSBOND 8 CYS B 44 CYS B 109 1555 1555 2.01

MODEL 1

ATOM 1 N ALA A 1 9.028 -1.949 -15.575 1.00 0.00 N

ATOM 2 CA ALA A 1 7.983 -2.064 -14.518 1.00 0.00 C

TER

ATOM 1770 N ALA B 1 -9.094 -0.752 15.747 1.00 0.00 N

ATOM 1771 CA ALA B 1 -8.052 -0.952 14.700 1.00 0.00 C

ENDMDL

CONECT 98 225

CONECT 215 1211

END

Python脚本如下(使用sys.argv[1]意味着您可以从命令行传递您想要的任何文件作为参数):

import subprocess, sys

def prep_molecule(pdb_file):
    pdb_fileName = pdb_file.split(".")[0]
    subprocess.call(['awk \'$1~"SSBOND|ATOM|TER|CONECT|END|MODEL|ENDMDL"\' "'+pdb_file+'" > "'+pdb_fileName+'_clean.pdb"'],shell=True)

if __name__ == '__main__':
    prep_molecule(sys.argv[1])

然后,"清洁" python脚本文件:

$ python pdb_clean.py pdb_file.pdb

结果:

$ cat pdb_file_clean.pdb
SSBOND 7 CYS B 15 CYS B 78 1555 1555 2.02
SSBOND 8 CYS B 44 CYS B 109 1555 1555 2.01
MODEL 1
ATOM 1 N ALA A 1 9.028 -1.949 -15.575 1.00 0.00 N
ATOM 2 CA ALA A 1 7.983 -2.064 -14.518 1.00 0.00 C
TER
ATOM 1770 N ALA B 1 -9.094 -0.752 15.747 1.00 0.00 N
ATOM 1771 CA ALA B 1 -8.052 -0.952 14.700 1.00 0.00 C
ENDMDL
CONECT 98 225
CONECT 215 1211
END