估算卡桑德拉的空间需求

时间:2018-04-03 06:03:29

标签: cassandra cassandra-3.0

评估Cassandra所需空间的最佳/可靠方法是什么?我的群集由Cassandra 3.11.2上的2个节点(RHEL 6.5)组成。我想估计每个表中每行的平均大小将在我的数据库中进行,以便我可以相应地进行计划。我知道一些方法,比如nodetool status命令,数据目录中使用的du -sh命令,nodetool cfstats等。但是每个方法都给出了不同的值,因此我不确定在计算中应该使用哪一个。

另外我发现除了实际数据之外,Cassandra还会在各种系统特定表中存储各种元数据,如size_estimates,sstable_activity等。这些元数据是否随着数据的增加而不断增加?这些元数据占用的空间与数据库中实际数据占用的空间之比是多少?另外,我应该记住YAML中的哪些特定配置(如果有的话)可能会影响数据的大小。

之前曾问过类似的question,但我对答案并不满意。

1 个答案:

答案 0 :(得分:0)

如果您希望每天获得20 GB的数据,则计算如下。

1天= 20 GB,1个月= 600 GB,1年= 7.2 TB,因此您一年的原始数据大小为7.2 TB,复制因子为3,那么一年的数据约为21.6 TB。 / p>

如果要进行大小分层压缩,请考虑压缩,并且用例会很繁琐。您将需要两倍于原始数据的空间。

因此,您将需要大约43 TB到45 TB的磁盘空间。