对于我的场景,Cassandra(CQL)架构/表看起来与RDBMS相同

时间:2015-03-24 11:59:56

标签: database cassandra database-schema cql schema-design

我看过Twissandra的例子。几天前我就此问了一个类似的问题,并收到了我在这里实施的一些提示。但是,通过查看表(列族),我发现它与关系数据库之间几乎没有任何区别。

我的情景: 一个简单的地址簿,用户可以在其中创建自己的联系人并对其进行分组(一个联系人可以放在多个组中,一个组可以包含多个联系人)。例如,联系人可能有多个地址。

我想检索位于地址x的所有联系人,并将其放在y组中。因此,我做了以下事情:

CREATE TABLE if not exists User (user_id uuid, contact_id uuid, type varchar, email varchar, PRIMARY KEY(id));
CREATE TABLE if not exists Contact (contact_id uuid, firstname varchar,lastname varchar, photo blob, imagelength int, note varchar, PRIMARY KEY (id));
CREATE TABLE if not exists Address (address_id uuid, contact_id uuid, street varchar, number int, zipcode varchar, country varchar, PRIMARY KEY(address_id));
CREATE TABLE if not exists Group (group_id uuid, user_id, groupname varchar, PRIMARY KEY(group_id));
CREATE TABLE if not exists Group_Contact (group_id uuid, contact_id, PRIMARY KEY(id, contact_id));

然而,基于此,这与关系数据库完全相同,除了我相信Cassandra以不同于磁盘上的RDBMS的方式放置这些数据。我不知道如何在Cassandra中做得更好,我是否以正确的方式对此进行了模拟。它只是一个简单的关系数据库。 我觉得我做错了,因为我 使用应用程序级联接来获取联系人的地址。我真的不知道如何对此进行去标准化以允许多个地址(甚至可能是电话,电子邮件)。

非常感谢任何改善这种情况的建议!

2 个答案:

答案 0 :(得分:3)

正如jny所指出的,数据复制,非规范化和基于查询的建模是构建优秀Cassandra数据模型的关键。如果我想上面的表格,并建立一个表格来支持基于国家/地区的地址/联系人查询,我可以这样做:

首先,我会为联系人的地址创建一个user defined type

aploetz@cqlsh:stackoverflow> CREATE TYPE contactAddress (
             ...   street varchar, 
             ...   city varchar,
             ...   zip_code varchar,
             ...   country varchar);

接下来,我将创建一个名为UserContactsByCountry的表来存储用户联系信息以及任何用户联系地址:

aploetz@cqlsh:stackoverflow> CREATE TABLE UserContactsByCountry (
             ...   country varchar,
             ...   user_id uuid,
             ...   type varchar,
             ...   email varchar,
             ...   firstname varchar,
             ...   lastname varchar,
             ...   photo blob,
             ...   imagelength int,
             ...   note varchar,
             ...   addresses map<text, frozen <contactAddress>>,
             ...   PRIMARY KEY ((country),user_id));

这里需要注意几点:

  • 我使用country作为查询的分区键,并将user_id添加为唯一性的群集键。
  • 从技术上讲,country每行存储多个。一旦作为partiiton键,再次与每个地址。请注意,country分区键是允许我们运行查询的键。
  • 我假设用户联系人可以有多个地址,所以我会将它们存储在text(varchar),contactAddress(上面创建的类型)的地图中。

接下来,我将插入三个用户联系人,每个联系人有两个地址,两个来自美国,一个来自英国。

aploetz@cqlsh:stackoverflow> INSERT INTO usercontactsbycountry (country, user_id, type, email, firstname, lastname, note, addresses)
VALUES ('USA',uuid(),'Tech','brycelynch@network23.com','Bryce','Lynch','Head of R&D at Network 23',{'work':{street:'101 Big Network Drive',city:'New York',zip_code:'10023',country:'USA'},'home':{street:'8192 N. 42nd St.',city:'New York',zip_code:'10025',country:'USA'}});
aploetz@cqlsh:stackoverflow> INSERT INTO usercontactsbycountry (country, user_id, type, email, firstname, lastname, note, addresses)
VALUES ('USA',uuid(),'Reporter','edisoncarter@network23.com','Edison','Carter','Reporter at Network 23',{'work':{street:'101 Big Network Drive',city:'New York',zip_code:'10023',country:'USA'},'home':{street:'76534 N. 62nd St.',city:'New York',zip_code:'10024',country:'USA'}});
aploetz@cqlsh:stackoverflow> INSERT INTO usercontactsbycountry (country, user_id, type, email, firstname, lastname, note, addresses)
VALUES ('GBR',uuid(),'Reporter','theorajones@network23.com','Theora','Jones','Controller at Network 23',{'work':{street:'101 Big Network Drive',city:'New York',zip_code:'10023',country:'USA'},'home':{street:'821 Wembley St.',city:'London',zip_code:'W11 2BQ',country:'GBR'}});

现在,我可以在美国的所有用户联系人中查询该表:

aploetz@cqlsh:stackoverflow> SELECT * FROM usercontactsbycountry WHERE country ='USA';
 country | user_id                              | addresses                                                                                                                                                                                    | email                      | firstname | imagelength | lastname | note                      | photo | type
---------+--------------------------------------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+----------------------------+-----------+-------------+----------+---------------------------+-------+----------
     USA | 2dee94e2-4887-4988-8cf5-9aee5fd0ea1e |  {'home': {street: '8192 N. 42nd St.', city: 'New York', zip_code: '10025', country: 'USA'}, 'work': {street: '101 Big Network Drive', city: 'New York', zip_code: '10023', country: 'USA'}} |   brycelynch@network23.com |     Bryce |        null |    Lynch | Head of R&D at Network 23 |  null |     Tech
     USA | b92612dd-dbaa-42f2-8ff2-d36b6c601aeb | {'home': {street: '76534 N. 62nd St.', city: 'New York', zip_code: '10024', country: 'USA'}, 'work': {street: '101 Big Network Drive', city: 'New York', zip_code: '10023', country: 'USA'}} | edisoncarter@network23.com |    Edison |        null |   Carter |    Reporter at Network 23 |  null | Reporter

(2 rows)

可能有其他方式可以对其进行建模,但我希望这可以用来帮助您了解一些可用的技术。

答案 1 :(得分:2)

很难从关系数据库的建模切换到Cassandra的建模,因为它们看起来非常相似:查询语言看起来几乎相同。但是,Cassandra的第一条规则是查询的模型,而在关系数据库中,我们建模数据。这意味着:

  • 最重要的考虑您的查询
  • 了解分区键和群集密钥
  • 不要害怕数据重复

Cassandra中有一个很好的数据建模示例:https://www.datastax.com/documentation/cql/3.1/cql/ddl/ddl_music_service_c.html