我们有一个大的Cassandra集群22台服务器(每台服务器附近有20T数据)
我们最近将压缩策略从SizeTieredCompactionStrategy(STCS)更改为DateTieredCompactionStrategy(DTCS)。
我们在群集下存储了许多二进制文件。然后过了一段时间我们改变了很多数据。然后,为了释放空间,我们发起了压缩。
因此压缩结束后,几乎所有服务器都释放了空间。但是nodetool状态 表明2台服务器仍有许多重复数据。
- 地址加载令牌拥有
UN 1.1.1.1 19.99 TB 256 4.7%
UN 1.1.1.2 18.94 TB 256 4.4%
UN 1.1.1.3 19.55 TB 256 4.5%
UN 1.1.1.4 28.24 TB 256 4.8%
UN 1.1.1.5 23.95 TB 256 4.7%
对于所有数据,我们使用gc_grace_seconds = 0 AND
所以我在这2台服务器上再次开始压缩。 (并没有用)
nodetool compactionhistory
看起来像最大的表
data data1 1441346309116 7694331659 7694326967 {1:25608,2:138}
看起来没有删除任何更改的数据。
服务器数据存储可能差异如此之大?或者它与战略变革有关的一些问题?
非常感谢你的帮助。