群集完整性受到干扰

时间:2016-04-04 07:55:02

标签: aerospike

我每周只在一个2节点集群上的一个节点上收到此错误。 这是我在AMC上遇到的错误:

主要错误:

  

群集完整性受到干扰

每一组都有错误:

  

命名空间测试的复制因子不匹配,如节点

所示

有关信息,2个节点具有相同的aerospike.conf文件,复制因子为2。 引起我注意的另一件事是,当只有一个节点关闭(不可见)时,整个集群都不可用,所以我在自我评估的Aerospike的HA上提出质疑。

要解决此问题,我只需重启节点不可见。

On the aerospike documentation它说:

  

如果一组节点已从主群集中分离,则情况可能如此。 (这有时被称为裂脑。)通常,最简单的方法是重新启动“丢失”节点以使其/它们重新加入群集。

但是每周都会出现这个问题,我很乐意一劳永逸地解决这个问题:)

2 个答案:

答案 0 :(得分:3)

我为Aerospike工作,在做了一些研究后,“节点所示的命名空间测试的复制因子不匹配”可以链接到不可见的节点。在具有复制因子2的2节点群集中,当一个节点不可用时,复制因子将降至1以维持数据可用性。当节点重新加入群集时,复制因子会暂时不匹配,AMC将重试,您不应该看到重复此错误。

我们需要到达问题的底部,回答你的第二个问题,看看我的评论。

答案 1 :(得分:3)

一个建议是将paxos-recovery-policy设置为auto-reset-master,并且群集应该自己重新组合在一起,假设问题的原因是临时网络流量,这意味着群集可能会失去完整性