应用错误收集

时间：2016-08-17 11:04:12

标签： python bioinformatics biopython

是否有PDB文件解析器（蛋白质数据库）可以从标题/备注部分中提取（大多数）信息，如细化统计等？

值得注意的是，我主要感兴趣的是在文件生成后立即从文件中访问数据，而不是从已经存储在蛋白质数据库中的结构中获取数据。这意味着要处理各种不同的“适当”格式，具体取决于所使用的改进软件。

我已经看过Biopython了，但他们在FAQ中明确指出“如果你对PDB标题的数据挖掘感兴趣，你可能想看看别处，因为对此只有有限的支持。”

我很清楚，从mmCIF文件中提取这些信息要容易得多，但不幸的是，这些信息仍然不能从许多大分子晶体学程序中常规输出。

答案 0 :(得分：1)

到目前为止，我发现的最佳方法是使用pdb_extract（http://pdb-extract.wwpdb.org/将PDB文件转换为mmcif格式，无论是在线还是独立）。

可以使用Biopythons Bio.PDB模块解析mmcif文件。写入mmcif文件有点棘手，Python PDBx似乎运行得相当好。

这个以及其他有用的PDB- / mmcif工具可以在http://mmcif.wwpdb.org/docs/software-resources.html

找到

答案 1 :(得分：-1)