精炼存储在SQLite中的数据 - 如何加入多个联系人?

时间:2010-05-25 11:45:16

标签: python sql algorithm sqlite bioinformatics

我在不同元素之间存储联系人。我想要消除某种类型的元素并存储由被删除元素互连的元素的新联系。

问题背景

想象一下这个问题。你有一个水分子与其他分子接触(如果接触是氢键,我的水周围可能有4个其他分子)。如下图所示(A,B,C,D是其他一些原子,点表示接触)。

 A   B
 |   |
 H   H
  . .
   O
  / \
 H   H
 .   .
 C   D

我有关于所有点的信息,我需要消除中心的水,并创建描述A-C,A-D,A-B,B-C,B-D和C-D接触的记录。

数据库结构

目前,我在数据库中有以下结构:

atoms

  • "id" integer PRIMARY KEY,
  • "amino" char(3) NOT NULL,(HOH代表水或其他价值)
  • 标识原子的其他列

contacts

  • "acceptor_id" integer NOT NULL,(靠近我氢的原子,这里是C或D)
  • "donor_id" integer NOT NULL,(此处为A或B)
  • "directness" char(1) NOT NULL,(这应该是D代表直接而W代表水介导)
  • 有关联系人的其他栏目,例如距离

编辑: 如何看待前面描述的案例中的数据。

atoms

id|atom|amino
1 | O  | HOH
2 | N  | ARG  <- atom A from image
3 | S  | CYS  <- B 
4 | O  | SER  <- C
5 | N  | ARG  <- D

contacts

donor_id|acceptor_id|directness
1        4           D
1        5           D
2        1           D
3        1           D

我需要从中制作

contacts

donor_id|acceptor_id|directness
3        4           W            <- B-C
3        5           W            <- B-D
2        4           W            <- A-C
2        5           W            <- A-D
2        3           X            <- A-B    (These last two rows are escaping me,
4        5           X            <- C-D     there could be also row D-C, but not
                                             both C-D and D-C. A char 'X' could 
                                             be used to mark "no donor/acceptor")

当前解决方案(不足)

现在,我正在浏览所有donor.amino = "HOH"的联系人。在此示例中,这将从C和D中选择联系人。对于每个选定的联系人,我查找与当前所选联系人中的acceptor_id具有相同donor_id的联系人。根据这些信息,我创建了新的联系人。最后,我删除了HOH的所有联系人。

这样,我显然无法创建C-D和A-B联系人(其他4个都可以)。

如果我尝试类似的方法 - 试图找到两个具有相同的donor_id的联系人,我最终会找到重复的联系人(C-D和D-C)。

是否有一种简单的方法可以检索所有六个没有重复的联系人?

我正在梦想一些长一页的SQL查询,它只检索这六个想要的行。 :-)
但是,欢迎任何其他想法。

最好保存关于谁是捐赠者(如果可能)的信息,但不是绝对必要的。

非常感谢所有阅读此问题的人。

2 个答案:

答案 0 :(得分:2)

你的解释有一个难点。

您开始的是有向图,其中每条边代表连接X =&gt; Y,其中X是供体,Y是受体。表atoms是该图的SQL表示。

您似乎想要的是无向。因此,链接X-Y意味着X和Y通过水分子(或当然一些其他物种)连接,但X和Y都可以是供体或受体。出于这个原因,你的最后一个表有一个歧义(你注意到),所以一些链接可能会发生。在我看来,这意味着您最后一列上的列标题donor_idacceptor_id没有任何您已解释过的含义。这当然可能是我的困惑。

如果您想要的只是一个包含所有6个链接的表,每个都是一行,但不要过于担心跟踪捐赠者/接受者的事情,那么这对我来说在sqlite3中有用:

 create temporary view hoh_view as 
 select donor_id as id, atoms.id as hoh_id from contacts, atoms 
       where acceptor_id=atoms.id and atoms.amino='HOH' 
 union select acceptor_id as id, atoms.id as hoh_id from contacts, atoms 
       where donor_id=atoms.id and atoms.amino='HOH';

 select a.id, b.id from hoh_view as a, hoh_view as b 
       where a.id > b.id and a.hoh_id=b.hoh_id;

我使用临时视图使事情更清晰。如果您愿意,可以通过第一个查询替换每个对hoh_view的引用,将所有内容放入一个大查询中。对我来说感觉有点讨厌,可能有办法整理它。

如果您确实希望跟踪供体/受体关系,您需要解释当两种氨基酸都是受体或供体时(例如,示例中的最后两行),您如何决定该怎么做。

如果那样做没有你想要的,那么也许我可以修复它,所以它确实如此。

答案 1 :(得分:1)

嗯,很难在评论中提供例子,我决定发表一个答案:

如果您必须遵循原始数据,则无法将第一个结构的数据与第二个结构的数据区分开来。应该有一个额外的分组条件来消除第一个和第二个结构之间的方向。

sqlite> create table atoms (id INT, atom TEXT, amino TEXT);
sqlite> insert into atoms VALUES (1, 'O', 'HOH');
sqlite> insert into atoms VALUES (2, 'A', 'ARG');
sqlite> insert into atoms VALUES (3, 'B', 'CYS');
sqlite> insert into atoms VALUES (4, 'C', 'SER');
sqlite> insert into atoms VALUES (5, 'D', 'ARG');
sqlite> insert into atoms VALUES (6, 'O1', 'HOH');
sqlite> insert into atoms VALUES (7, 'A1', 'ARG');
sqlite> insert into atoms VALUES (8, 'B1', 'CYS');
sqlite> insert into atoms VALUES (9, 'C1', 'SER');
sqlite> insert into atoms VALUES (10, 'D1', 'ARG');
sqlite> select * from atoms;
1|O|HOH
2|A|ARG
3|B|CYS
4|C|SER
5|D|ARG
6|O1|HOH
7|A1|ARG
8|B1|CYS
9|C1|SER
10|D1|ARG

<强> UPD

以下是原始数据:

sqlite> .headers ON
sqlite> .mode columns
sqlite> select * from atoms;
id          atom        amino
----------  ----------  ----------
1           O           HOH
2           A           ARG
3           B           CYS
4           C           SER
5           D           ARG
6           O1          HOH
7           A1          ARG
8           B1          CYS
9           C1          SER
10          D1          ARG
sqlite> select * from contacts;
donor_id    acceptor_id  directness
----------  -----------  ----------
1           4            D
1           5            D
2           1            D
3           1            D
6           9            D
6           10           D
7           6            D
8           6            D

以下是查询:

select
    c1.donor_id, c2.acceptor_id, 'W' as directness
from
    contacts c1, contacts c2, atoms a
where
    c1.acceptor_id = c2.donor_id
    and c1.acceptor_id=a.id
    and a.amino='HOH'
UNION ALL
select
    c1.donor_id, c2.donor_id, 'X' as directness
from
    contacts c1, contacts c2, atoms a
where
    c1.acceptor_id = c2.acceptor_id
    and c1.acceptor_id=a.id
    and a.amino='HOH'
    and c1.donor_id < c2.donor_id
UNION ALL
select
    c1.acceptor_id, c2.acceptor_id, 'X' as directness
from
    contacts c1, contacts c2, atoms a
where
    c1.donor_id = c2.donor_id
    and c1.donor_id=a.id
    and a.amino='HOH'
    and c1.acceptor_id < c2.acceptor_id;

结果如下:

donor_id    acceptor_id  directness
----------  -----------  ----------
2           4            W
2           5            W
3           4            W
3           5            W
7           9            W
7           10           W
8           9            W
8           10           W
2           3            X
7           8            X
4           5            X
9           10           X