问题背景

想象一下这个问题。你有一个水分子与其他分子接触（如果接触是氢键，我的水周围可能有4个其他分子）。如下图所示（A，B，C，D是其他一些原子，点表示接触）。

 A   B
 |   |
 H   H
  . .
   O
  / \
 H   H
 .   .
 C   D

我有关于所有点的信息，我需要消除中心的水，并创建描述A-C，A-D，A-B，B-C，B-D和C-D接触的记录。

数据库结构

目前，我在数据库中有以下结构：

表atoms：

"id" integer PRIMARY KEY,
"amino" char(3) NOT NULL,（HOH代表水或其他价值）
标识原子的其他列

表contacts：

"acceptor_id" integer NOT NULL,（靠近我氢的原子，这里是C或D）
"donor_id" integer NOT NULL,（此处为A或B）
"directness" char(1) NOT NULL,（这应该是D代表直接而W代表水介导）
有关联系人的其他栏目，例如距离

编辑：如何看待前面描述的案例中的数据。

atoms：

id|atom|amino
1 | O  | HOH
2 | N  | ARG  <- atom A from image
3 | S  | CYS  <- B 
4 | O  | SER  <- C
5 | N  | ARG  <- D

contacts：

donor_id|acceptor_id|directness
1        4           D
1        5           D
2        1           D
3        1           D

我需要从中制作

contacts：

donor_id|acceptor_id|directness
3        4           W            <- B-C
3        5           W            <- B-D
2        4           W            <- A-C
2        5           W            <- A-D
2        3           X            <- A-B    (These last two rows are escaping me,
4        5           X            <- C-D     there could be also row D-C, but not
                                             both C-D and D-C. A char 'X' could 
                                             be used to mark "no donor/acceptor")

当前解决方案（不足）

现在，我正在浏览所有donor.amino = "HOH"的联系人。在此示例中，这将从C和D中选择联系人。对于每个选定的联系人，我查找与当前所选联系人中的acceptor_id具有相同donor_id的联系人。根据这些信息，我创建了新的联系人。最后，我删除了HOH的所有联系人。

这样，我显然无法创建C-D和A-B联系人（其他4个都可以）。

如果我尝试类似的方法 - 试图找到两个具有相同的donor_id的联系人，我最终会找到重复的联系人（C-D和D-C）。

是否有一种简单的方法可以检索所有六个没有重复的联系人？

我正在梦想一些长一页的SQL查询，它只检索这六个想要的行。 :-)
但是，欢迎任何其他想法。

最好保存关于谁是捐赠者（如果可能）的信息，但不是绝对必要的。

非常感谢所有阅读此问题的人。

Answer 1

你的解释有一个难点。

您开始的是有向图，其中每条边代表连接X =＆gt; Y，其中X是供体，Y是受体。表atoms是该图的SQL表示。

您似乎想要的是无向。因此，链接X-Y意味着X和Y通过水分子（或当然一些其他物种）连接，但X和Y都可以是供体或受体。出于这个原因，你的最后一个表有一个歧义（你注意到），所以一些链接可能会发生。在我看来，这意味着您最后一列上的列标题donor_id和acceptor_id没有任何您已解释过的含义。这当然可能是我的困惑。

如果您想要的只是一个包含所有6个链接的表，每个都是一行，但不要过于担心跟踪捐赠者/接受者的事情，那么这对我来说在sqlite3中有用：

 create temporary view hoh_view as 
 select donor_id as id, atoms.id as hoh_id from contacts, atoms 
       where acceptor_id=atoms.id and atoms.amino='HOH' 
 union select acceptor_id as id, atoms.id as hoh_id from contacts, atoms 
       where donor_id=atoms.id and atoms.amino='HOH';

 select a.id, b.id from hoh_view as a, hoh_view as b 
       where a.id > b.id and a.hoh_id=b.hoh_id;

我使用临时视图使事情更清晰。如果您愿意，可以通过第一个查询替换每个对hoh_view的引用，将所有内容放入一个大查询中。对我来说感觉有点讨厌，可能有办法整理它。

如果您确实希望跟踪供体/受体关系，您需要解释当两种氨基酸都是受体或供体时（例如，示例中的最后两行），您如何决定该怎么做。

如果那样做没有你想要的，那么也许我可以修复它，所以它确实如此。

Answer 2

嗯，很难在评论中提供例子，我决定发表一个答案：

如果您必须遵循原始数据，则无法将第一个结构的数据与第二个结构的数据区分开来。应该有一个额外的分组条件来消除第一个和第二个结构之间的方向。

sqlite> create table atoms (id INT, atom TEXT, amino TEXT);
sqlite> insert into atoms VALUES (1, 'O', 'HOH');
sqlite> insert into atoms VALUES (2, 'A', 'ARG');
sqlite> insert into atoms VALUES (3, 'B', 'CYS');
sqlite> insert into atoms VALUES (4, 'C', 'SER');
sqlite> insert into atoms VALUES (5, 'D', 'ARG');
sqlite> insert into atoms VALUES (6, 'O1', 'HOH');
sqlite> insert into atoms VALUES (7, 'A1', 'ARG');
sqlite> insert into atoms VALUES (8, 'B1', 'CYS');
sqlite> insert into atoms VALUES (9, 'C1', 'SER');
sqlite> insert into atoms VALUES (10, 'D1', 'ARG');
sqlite> select * from atoms;
1|O|HOH
2|A|ARG
3|B|CYS
4|C|SER
5|D|ARG
6|O1|HOH
7|A1|ARG
8|B1|CYS
9|C1|SER
10|D1|ARG

<强> UPD

以下是原始数据：

sqlite> .headers ON
sqlite> .mode columns
sqlite> select * from atoms;
id          atom        amino
----------  ----------  ----------
1           O           HOH
2           A           ARG
3           B           CYS
4           C           SER
5           D           ARG
6           O1          HOH
7           A1          ARG
8           B1          CYS
9           C1          SER
10          D1          ARG
sqlite> select * from contacts;
donor_id    acceptor_id  directness
----------  -----------  ----------
1           4            D
1           5            D
2           1            D
3           1            D
6           9            D
6           10           D
7           6            D
8           6            D

以下是查询：

select
    c1.donor_id, c2.acceptor_id, 'W' as directness
from
    contacts c1, contacts c2, atoms a
where
    c1.acceptor_id = c2.donor_id
    and c1.acceptor_id=a.id
    and a.amino='HOH'
UNION ALL
select
    c1.donor_id, c2.donor_id, 'X' as directness
from
    contacts c1, contacts c2, atoms a
where
    c1.acceptor_id = c2.acceptor_id
    and c1.acceptor_id=a.id
    and a.amino='HOH'
    and c1.donor_id < c2.donor_id
UNION ALL
select
    c1.acceptor_id, c2.acceptor_id, 'X' as directness
from
    contacts c1, contacts c2, atoms a
where
    c1.donor_id = c2.donor_id
    and c1.donor_id=a.id
    and a.amino='HOH'
    and c1.acceptor_id < c2.acceptor_id;

结果如下：

donor_id    acceptor_id  directness
----------  -----------  ----------
2           4            W
2           5            W
3           4            W
3           5            W
7           9            W
7           10           W
8           9            W
8           10           W
2           3            X
7           8            X
4           5            X
9           10           X

精炼存储在SQLite中的数据 - 如何加入多个联系人？

问题背景

数据库结构

当前解决方案（不足）

是否有一种简单的方法可以检索所有六个没有重复的联系人？

2 个答案: