5
0001 -417.031
C 1.04168,-0.05620,-0.07148 1.041682,-0.056200,-0.071481
H 2.15109,-0.05620,-0.07150 2.130894,-0.056202,-0.071496
H 0.67187,0.17923,-1.09059 0.678598,0.174941,-1.072044
H 0.67188,0.70866,0.64196 0.678613,0.694746,0.628980
H 0.67188,-1.05649,0.23421 0.678614,-1.038285,0.228641
8
0002 -711.117
C 0.99571,0.01149,-0.09922 0.995914,0.011511,-0.099221
C 2.51489,0.01148,-0.09922 2.514686,0.011466,-0.099226
H 0.61911,0.74910,-0.83887 0.597259,0.7299877,-0.819596
H 0.61911,0.28325,0.90938 0.597259,0.276170,0.883106
H 0.61909,-0.99785,-0.36818 0.597278,-0.971531,-0.361167
H 2.89151,1.02083,0.16973 2.913322,0.994509,0.162719
H 2.89149,-0.26027,-1.10783 2.913341,-0.253192,-1.081553
H 2.89149,-0.72612,0.64042 2.913341,-0.706900,0.621148
这两个数据点来自化学数据库GDB 13.我试着理解这些数字代表什么。我知道5和8是原子序数; 0001和0002是原子id;和-417.031和711.117是雾化能量。但是,我不太明白这些数字的含义是什么。但是,我很确定它们是三维空间中的几何表示。如果那是三维空间中的几何表示,那么为什么那里有6个数字。如何阅读这6个数字?
我也在尝试使用BOB表示来改造数据,有没有办法做到这一点而不是硬编码?如果没有,我正在使用R,R能够做到吗?
答案 0 :(得分:0)
查看 Int中的原始论文。 J. Quantum Chem。, 2015 , 115 ,1058-1073(DOI)。
扩展的XYZ格式在本文的图7中进行了解释。
你是对的,第一行表示原子数 k ,而第二行由标识符和特定分子的雾化能量组成。
下一个 k 行包含两组笛卡尔坐标(在Angström中)。左侧块包含来自力场计算(UFF)的 x,y,z 坐标,而右侧的坐标则来自DFT计算。
以Open Babel方式读取和转换各种格式的坐标文件的常用工具。看看 J中的随附论文。化学信息学, 2013 , 3 :33(DOI)
Open Babel 存在各种绑定,显然,r
也有一个绑定。 Have a look
我刚刚使用Open Babel 2.3.2对Mathias Rupp撰写的论文补充数据中的第一个条目进行了快速测试:
obabel -ixyz c1.xyz -oxyz -O c1a.xyz
显然,只读入左坐标块!如果您怀疑UFF和DFT计算的坐标差异很大,那么您可能是您自己的。但是,鉴于文件格式已记录在案,这不应成为主要问题。
如果你不介意发表评论,你的问题的标题有点误导。有问题的数据只与GDB-13有很大关系。据我所知,Jean-Louis Reymond的GDB文件不包含任何坐标。它们是大型集合SMILES字符串,必须为每个条目生成坐标。