在从一个节点到另一个节点的重新传输失败之后,两个节点都相互标记为已死,并且在crm_mon

时间:2017-12-06 08:08:24

标签: high-availability failover pacemaker corosync

因此,在启动节点1时不显示节点2,类似地,节点2未在crm_mon命令中显示节点1

在分析corosync日志后,我发现由于多次重传失败,两个节点都互相标记为死,所以我试图停止并启动corosync和起搏器,但他们仍然没有形成集群,并且没有在crm_mon中显示对方

  

节点2的日志:

     

对于srv-vme-ccs-02

     

Oct 30 02:22:49 srv-vme-ccs-02 crmd [1973]:注意:   crm_update_peer_state:plugin_handle_membership:节点   srv-vme-ccs-01 [2544637100] - 现在是成员(was(null)

     

到目前为止是会员

     

10月30日10:07:34 srv-vme-ccs-02 corosync [1613]:[TOTEM] Retransmit List:117 Oct 30 10:07:35 srv-vme-ccs-02 corosync [1613] :[TOTEM]   Reransmit List:118 Oct 30 10:07:35 srv-vme-ccs-02 corosync [1613]:
  [TOTEM]失败收到10月30日10:07:49 srv-vme-ccs-02 arpwatch:   bogon 192.168.0.120
d4:be:d9:af:c6:23 Oct 30 10:07:59 srv-vme-ccs-02   corosync [1613]:[pcmk] notice:pcmk_peer_update:Transitional   环232上的会员活动:memb = 1,new = 0,lost = 1 Oct 30 10:07:59   srv-vme-ccs-02 corosync [1613]:[pcmk] info:pcmk_peer_update:   memb:srv-vme-ccs-02 2561414316 10月30日10:07:59 srv-vme-ccs-02   corosync [1613]:[pcmk] info:pcmk_peer_update:lost:   srv-vme-ccs-01 2544637100 10月30日10:07:59 srv-vme-ccs-02   corosync [1613]:[pcmk]通知:pcmk_peer_update:稳定的会员资格   环232上的事件:memb = 1,new = 0,lost = 0 Oct 30 10:07:59   srv-vme-ccs-02 corosync [1613]:[pcmk] info:pcmk_peer_update:   会员:srv-vme-ccs-02 2561414316    10月30日10:07:59 srv-vme-ccs-02 corosync [1613]:[pcmk] info:ais_mark_unseen_peer_dead:节点srv-vme-ccs-01未出现在   上一次过渡 10月30日10:07:59 srv-vme-ccs-02 corosync [1613]:
  [pcmk] info:update_member:节点2544637100 / srv-vme-ccs-01现在是:   10月30日10:07:59丢失srv-vme-ccs-02 corosync [1613]:[pcmk]信息:   send_member_notification:将成员资格更新232发送给2个孩子   10月30日10:07:59 srv-vme-ccs-02 corosync [1613]:[TOTEM] A处理器   加入或离开会员,并成立了新的会员。 10月30日   10:07:59 srv-vme-ccs-02 corosync [1613]:[CPG]选择下载列表:   发送者r(0)ip(172.20.172.152);成员(旧:2左:1)10月30日10:07:59   srv-vme-ccs-02 crmd [1973]:注意:plugin_handle_membership:   会员资格232:法定人数在10月30日10:07:59失去了srv-vme-ccs-02   corosync [1613]:[MAIN]已完成服务同步,准备就绪   提供服务。 10月30日10:07:59 srv-vme-ccs-02 cib [1968]:注意:   plugin_handle_membership:会员232:法定人数丢失    10月30日10:07:59 srv-vme-ccs-02 crmd [1973]:notice:crm_update_peer_state:plugin_handle_membership:Node   srv-vme-ccs-01 [2544637100] - 州现已失去(成员)10月30日   10:07:59 srv-vme-ccs-02 cib [1968]:注意:crm_update_peer_state:   plugin_handle_membership:Node srv-vme-ccs-01 [2544637100] - state is   现在输了(是会员) 10月30日10:07:59 srv-vme-ccs-02 crmd [1973]:   警告:reap_dead_nodes:我们的DC节点(srv-vme-ccs-01)离开了   群集

     

现在srv-vme-ccs-01不再是会员

在另一个节点上,我发现类似的失败重新传输日志

  

节点1的日志

     

对于srv-vme-ccs-01

     

Oct 30 09:48:32 [2000] srv-vme-ccs-01 pengine:info:   determine_online_status:节点srv-vme-ccs-01在线10月30日   09:48:32 [2000] srv-vme-ccs-01 pengine:info:   determine_online_status:节点srv-vme-ccs-02在线

     

ct 30 09:48:59 [2001] srv-vme-ccs-01 crmd:info:update_dc:   取消设置DC。是srv-vme-ccs-01    10月30日09:48:59 corosync [TOTEM]转发清单:107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 10月30日09:48:59   corosync [TOTEM] Retransmit List:107 108 109 10a 10b 10c 10d 10e 10f   110 111 112 113 114 115 116 117 118

     

10月30日10:08:22 corosync [TOTEM]处理器发生故障,形成新配置。 10月30日10:08:25 corosync [pcmk]通知:   pcmk_peer_update:环232上的过渡成员资格事件:memb = 1,   new = 0,lost = 1 Oct 30 10:08:25 corosync [pcmk] info:   pcmk_peer_update:memb:srv-vme-ccs-01 2544637100 10月30日10:08:25   corosync [pcmk] info:pcmk_peer_update:lost:srv-vme-ccs-02   2561414316 10月30日10:08:25 corosync [pcmk]通知:pcmk_peer_update:   环232上的稳定成员事件:memb = 1,new = 0,lost = 0 10月30日   10:08:25 corosync [pcmk] info:pcmk_peer_update:MEMB:   srv-vme-ccs-01 2544637100    10月30日10:08:25 corosync [pcmk] info:ais_mark_unseen_peer_dead:节点srv-vme-ccs-02未在上一次转换中看到 10月30日   10:08:25 corosync [pcmk] info:update_member:节点   2561414316 / srv-vme-ccs-02现在:丢失10月30日10:08:25 corosync [pcmk   ] info:send_member_notification:将成员资格更新232发送到2   孩子    10月30日10:08:25 corosync [TOTEM]处理器加入或离开会员资格并成立新会员。 10月30日10:08:25 [1996]   srv-vme-ccs-01 cib:通知:plugin_handle_membership:
  会员资格232:法定人数损失10月30日10:08:25 [1996] srv-vme-ccs-01
  cib:notice:crm_update_peer_state:plugin_handle_membership:   节点srv-vme-ccs-02 [2561414316] - 状态现已丢失(已成员)10月   30 10:08:25 corosync [CPG]选择下载列表:发件人r(0)   ip(172.20.172.151);成员(旧:2左:1)10月30日10:08:25 [2001]   srv-vme-ccs-01 crmd:notice:plugin_handle_membership:
  会员资格232:法定人数损失10月30日10:08:25 [2001] srv-vme-ccs-01
  crmd:notice:crm_update_peer_state:plugin_handle_membership:   节点srv-vme-ccs-02 [2561414316] - 状态现已丢失(已成员)10月   30 10:08:25 [2001] srv-vme-ccs-01 crmd:info:   peer_update_callback:srv-vme-ccs-02现已丢失(是会员)   10月30日10:08:25 corosync [MAIN]完成服务同步,   随时准备提供服务。 10月30日10:08:25 [2001] srv-vme-ccs-01
  crmd:warning:match_down_event:关闭操作不匹配   srv-vme-ccs-02 10月30日10:08:25 [1990] srv-vme-ccs-01 pacemakerd:
  info:crm_cs_flush:已发送0条CPG消息(剩余1条,最后一条= 9条):   再试一次(6)

     

Oct 30 10:08:25 [2001] srv-vme-ccs-01 crmd:info:   join_make_offer:跳过srv-vme-ccs-01:已知10月30日   10:08:25 [2001] srv-vme-ccs-01 crmd:info:update_dc:Set   DC到srv-vme-ccs-01(3.0.7)10月30日10:08:25 [1996] srv-vme-ccs-01
  cib:info:cib_process_request:已完成cib_modify   crm_config部分的操作:OK(rc = 0,origin = local / crmd / 185,   版本= 0.116.3)

因此,同时在两个节点上重复发送消息(在服务器突然重启后发生),并且节点互相标记为丢失成员并形成单独的集群,将其标记为DC

1 个答案:

答案 0 :(得分:4)

我得到了解决方案:

首先检查tcpdump pacemkaer正在使用多播,在与网络团队调查后,我们开始知道多播未启用。

所以当我们删除mcastaddere并重新启动corosync和起搏器时,但是corosyn拒绝启动并说错误:

corosync.conf中没有定义mcastaddresss。

Laster on debugging发现synaxt为

  

运输:udpu

不正确它的写作如下:

  

transport = udpu

因此,默认运行的corosync是多播模式。

因此,在纠正corosync.conf后解决了问题。