是否有PDB文件解析器(蛋白质数据库)可以从标题/备注部分中提取(大多数)信息,如细化统计等?
值得注意的是,我主要感兴趣的是在文件生成后立即从文件中访问数据,而不是从已经存储在蛋白质数据库中的结构中获取数据。这意味着要处理各种不同的“适当”格式,具体取决于所使用的改进软件。
我已经看过Biopython了,但他们在FAQ中明确指出“如果你对PDB标题的数据挖掘感兴趣,你可能想看看别处,因为对此只有有限的支持。”
我很清楚,从mmCIF文件中提取这些信息要容易得多,但不幸的是,这些信息仍然不能从许多大分子晶体学程序中常规输出。
答案 0 :(得分:1)
到目前为止,我发现的最佳方法是使用pdb_extract(http://pdb-extract.wwpdb.org/将PDB文件转换为mmcif格式,无论是在线还是独立)。
可以使用Biopythons Bio.PDB模块解析mmcif文件。 写入mmcif文件有点棘手,Python PDBx似乎运行得相当好。
这个以及其他有用的PDB- / mmcif工具可以在http://mmcif.wwpdb.org/docs/software-resources.html
找到答案 1 :(得分:-1)
也许你应该尝试那个图书馆? https://pypi.python.org/pypi/bioservices