我最初尝试重现此paper中显示的PCA图(图1)。
本文使用PCA技术根据reference 16在较低维度上可视化蛋白质结构构象(图1-B和C)。 PC图中的每个点代表较低维空间中的蛋白质结构。但我现在有些疑惑,因为我正试图重现这些情节。所以我查看了link这是一个名为bio3d的R库,来自reference-16的作者。每个pdb文件的pdb文件中都有{X Y Z}
个坐标位置。在对齐蛋白质之间的区域后,您可以将这些数据用于PCA。我试图重现bio3d工具箱示例页面的结果,但使用MATLAB(因为我不熟悉R)。但我无法得到bio3d link中图9所示的情节。
有人可以帮我复制这些数字吗?我有我的matlab脚本和6个结构,如上传here的网页一样。该脚本将帮助您加载数据,尽管我已经从我这边做了一些尝试。
更新1 :简而言之,我的问题是:
有人可以建议我如何准备6个结构的协方差矩阵及其特定问题的坐标,以便我可以对其进行PCA吗?
更新2 :我最初错误地在Google云端硬盘中共享了未对齐的pdb结构文件。我已经正确上传了它。
答案 0 :(得分:1)
引用问题:
在区分蛋白质区域后,您可以将这些数据用于PCA。 (强调补充)。
您似乎没有先区分蛋白质区域。
PCA对蛋白质结构的应用始于一组类似的蛋白质,其三维结构已经确定,可能在不同的生物学条件下。例如,蛋白质可能已经与调节其结构和功能的特定小分子结合。这个想法是这些蛋白质的大多数结构将在这些不同的条件下紧密一致,而对功能最重要的蛋白质部分将是不同的。因此,蛋白质中最重要的部分可能在结构组中的三维位置上显示出变化,并且主要组分中的簇(如该问题中第一个图的C部分)说明蛋白质和实验条件的哪些特定组合是在三维结构的这些差异方面彼此相似。
然而,蛋白质中原子的{X,Y,Z}坐标可能在蛋白质结构集合中具有不同的空间系统取向,因为任何一种情况下的坐标系都基于x的细节。 - 射线晶体学或用于确定结构的其他方法。因此,第一步是旋转单个蛋白质结构,使所有蛋白质结构尽可能接近地对齐以开始。然后围绕那些紧密排列(旋转后)三维结构的方差计算方差。否则,{X,Y,Z}空间中的大部分方差将代表晶体学会话中系统方向的差异。与所有R软件包一样,bio3d
具有公开可用的源代码。 pdbfit()
功能包括PCA之前的2个重要预处理。它试图解释具有gap.inspect()
函数的结构中的间隙,然后它将蛋白质结构旋转为3维,以便与fit.xyz()
函数进行最佳整体对齐。只有这样才能进入PCA。
你当然可以尝试在MATLAB中重现那些预处理功能,但在这种情况下,学习足够的R来利用这个扩展包中已经提供的功能可能是最简单的。