我一直在阅读Cassandra文档的this section,发现以下内容有点令人费解:
确定列开销:
regular_total_column_size = column_name_size + column_value_size + 15
counter - expiring_total_column_size = column_name_size + column_value_size + 23
Cassandra中的每一列都会产生15个字节的开销。由于表中的每一行都可以具有不同的列名以及不同的列数,因此会为每列存储元数据。对于计数器列和到期列,您应该再添加8个字节(总共23个字节)。
我为CQL3定义的模式解释上述方法,例如:
CREATE TABLE mykeyspace.mytable(
id text,
report_id text,
subset_id text,
report_date timestamp,
start_date timestamp,
end_date timestamp,
subset_descr text,
x int,
y double,
z int,
PRIMARY KEY (id, report_id, subset_id)
);
是每行包含列名称的元数据,例如字符串report_date
,start_date
,end_date
等,以及它们的类型以及数据。但是,我不清楚表中的每一行可以有不同的列名是什么意思。这听起来不对我,因为上面的架构完全是静态,即如果我尝试写的话,Cassandra 2.0肯定会抱怨:
INSERT INTO mykeyspace.mytable (id, report_id , subset_id, x, y, z, w)
VALUES ( 'asd','qwe','rty',100,1.234,12, 123.123);
Bad Request: Unknown identifier w
现在,我认为在给定此表模式的情况下,列名称是固定的,因此不需要每行存储元数据。我猜测文档中的措辞是否过时(它与Cassandra 1.2相同)或者我在这里误解了一些核心概念。
任何人都可以澄清吗?一句话:我是否要担心列名称的长度?
我们一直在安全地玩它并尽可能使用单个字符名称(因此上面的列实际上是i
,r
,s
,dr
,{{ 1}},ds
,de
,...),但它是非人类不可读的,可能会让人感到困惑。
答案 0 :(得分:9)
在这种情况下弄清楚发生了什么的最简单方法是检查数据的sstable2json(cassandra / bin)表示。这将显示最终实际保存在磁盘上的内容。
以下是您的情况示例
[
{"key": "4b6579","columns": [
["rid1:ssid1:","",1401469033325000],
["rid1:ssid1:end_date","2004-10-03 00:00:00-0700",1401469033325000],
["rid1:ssid1:report_date","2004-10-03 00:00:00-0700",1401469033325000],
["rid1:ssid1:start_date","2004-10-03 00:00:00-0700",1401469033325000],
["rid1:ssid1:subset_descr","descr",1401469033325000],
["rid1:ssid1:x","1",1401469033325000],
["rid1:ssid1:y","5.5",1401469033325000],
["rid1:ssid1:z","1",1401469033325000],
["rid2:ssid2:","",1401469938599000],
["rid2:ssid2:end_date", "2004-10-03 00:00:00-0700",1401469938599000],
["rid2:ssid2:report_date","2004-10-03 00:00:00-0700",1401469938599000],
["rid2:ssid2:start_date","2004-10-03 00:00:00-0700",1401469938599000],
["rid2:ssid2:subset_descr","descr",1401469938599000],
["rid2:ssid2:x","1",1401469938599000],
["rid2:ssid2:y","5.5",1401469938599000],
["rid2:ssid2:z","1",1401469938599000]
}
]
如上所述,每个分区(每个sstable)保存一次分区键的值,在这种情况下,列名称根本不重要,因为它是给定表隐式的。群集列的列名也不存在,因为使用C *时,不允许在不指定键的所有部分的情况下插入。
虽然剩下的东西确实有列名,但是这需要对行进行部分更新,这样就可以保存它而不需要其余的行信息。您可以想象对行中单个列字段的更新,以指示哪个字段是C *当前使用列名称,但是有票据将此更改为更小的表示。 https://issues.apache.org/jira/browse/CASSANDRA-4175
生成此
cqlsh
CREATE TABLE mykeyspace.mytable( id text, report_id text, subset_id text, report_date timestamp, start_date timestamp, end_date timestamp, subset_descr text, x int, y double, z int, PRIMARY KEY (id, report_id, subset_id) );
INSERT INTO mykeyspace.mytable (id, report_id , subset_id , report_date , start_date , end_date , subset_descr ,x, y, z) VALUES ( 'Key', 'rid1','ssid1', '2004-10-03','2004-10-03','2004-10-03','descr',1,5.5,1);
INSERT INTO mykeyspace.mytable (id, report_id , subset_id , report_date , start_date , end_date , subset_descr ,x, y, z) VALUES ( 'Key', 'rid2','ssid2', '2004-10-03','2004-10-03','2004-10-03','descr',1,5.5,1);
exit;
nodetool flush
bin/sstable2json $DATA_DIR/mytable/mykeyspace-mytable-jb-1-Data.db