Question

我是Cassandra的新手，我创建了一个具有以下规范的Cluseter。

如何确保Cassandra在群集中均匀分布数据？

node count: 4
replication_factor: 3

表架构：

CREATE TABLE space.user (
    id uuid PRIMARY KEY,
    firstname text,
    lastname text
) WITH bloom_filter_fp_chance = 0.01
    AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
    AND comment = ''
    AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
    AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
    AND crc_check_chance = 1.0
    AND dclocal_read_repair_chance = 0.1
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND memtable_flush_period_in_ms = 0
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99PERCENTILE';

Answer 1

最简单的方法是使用nodetool status-您can check在Load列中显示多少-磁盘上的数据量，尽管它也可以计算尚未清除（如果您进行了拓扑更改，则可能需要运行nodetool cleanup来删除该数据）。

基本上，节点之间的差别不应该太大，但这取决于您指定为num_tokens的数目。如果每个服务器有8个令牌，则与平均大小的差可能为+ -10-12％。对于更多的令牌，差异可能会更小。

但是在您的情况下，我认为节点之间的差异不会很大，因为您的行很小，而且名字/姓氏应该很大。

如何检查Cassandra在整个群集中均匀分布数据

1 个答案: