Cassandra - 复制因子与节点计数关系

时间:2016-10-07 10:09:17

标签: cassandra replication datastax database nosql

我的一个C *集群设计期望节点每个节点容纳1到2 TB的数据,我预计在几个月内会有大量数据。假装我可以获得1PB的数据并且每个节点将保存1TB的数据,这意味着我应该计划随着时间的推移增长1000倍,并从 N = 3 节点开始对于1TB的数据,RF = 3 ,随着时间的推移,我会继续添加 N = 3000 的节点。

所涉及的大量节点对如何处理磁盘/服务器故障,保持集群健康以及如何执行备份施加了一些压力。

健康群组

当您 N <10 < / strong>节点是非常合理的,但是当您使用 N 时,节点的 MTBF 会相应地下降,因此保持 RF = 3 会打扰你,你可能想要“升级”到 RF = 5 或更多。

Q1:有什么好的射频可以对抗降低的MTBF并保持群集健康(并且你安静地睡觉)说100个节点?和500?和1000?

BACKUP

由于以下原因,对所有节点进行备份似乎有点不可行:

  • 立即使解决方案的成本翻倍。
  • 由于群集的RF,我会备份冗余数据。

我认为无法移除RF引入的冗余,只备份数据,期望在 RF = 2 的情况下向C *添加另一个DC(我可以选择RF = 1但是如果我输了一个节点所有备份集群都已关闭)。那 将意味着为备份添加 2 / RF 群集的成本 在我看来,这个目的是一个很好的选择。

Q2:在不增加解决方案成本的情况下,还有其他方法可以执行此任务吗?

0 个答案:

没有答案