我正在尝试为基准测试创建一个平台,我正在为包含Cassandra作为大量写入吞吐量负载的数据库的客户端运行。 存储和计算每个指标的大量指标(时间序列)应存储为CQLTable / Column Family。 第一个问题是创建它们(~10M指标)需要数天(运行4节点culster)。 我尝试使用executemany(python cql)进行扩充,但是' service-time'延迟大致相同。 任何人都可以建议更好的方法吗?
答案 0 :(得分:0)
您不应为每个列创建单独的列族--10M列族太多了,因为每个CF都有固定资源。
将它们放在一个CF中可能会更好。您可以将度量标准名称添加为复合主键的组件,例如
create table metrics (
metric text,
day timestamp,
time timestamp,
value text,
primary key ((metric, day))
);
日期字段用于按天对指标进行分片,因此对于给定的指标,它们并非都在同一行中。