cassandra性能,每行有很多列

时间:2013-06-08 17:21:19

标签: performance cassandra

我正在考虑存储数据,每列的数量达到100-250万之间,列族中最多2-3k行。 我将使用复合列来允许对数据进行切片,并将切片范围限制为可在进程内存限制内处理的合理值。

一个CF没有列值,只有100-250毫列的列名称,其他CF将具有相同的列数,但每列值约为20-30kb。

我假设切片不需要加载所有列名等来切片数据。

将有5%的行具有如此高的列数,其余的将具有15-20万的最大值

任何人都尝试在Column Family中每行使用如此大量的列,以及性能如何......

如果上述工作正常,它可以为我节省大量管理多个CF的工作。

由于

1 个答案:

答案 0 :(得分:0)

我已经研究了与你所描述的数据相近的卷数据。范围切片不是很快但在增加数据大小时并没有真正变慢,除了开销导致cassandra必须返回更多列。但是,最快的查询方法是,如果您事先知道要查询的所有密钥。

您的设置几乎没有任何缺点,因为您没有使用超级列并且具有平坦的数据结构,这就是Cassandra的优点,毕竟它是一个键值存储。