因此,在启动节点1时不显示节点2,类似地,节点2未在crm_mon命令中显示节点1
在分析corosync日志后,我发现由于多次重传失败,两个节点都互相标记为死,所以我试图停止并启动corosync和起搏器,但他们仍然没有形成集群,并且没有在crm_mon中显示对方
节点2的日志:
对于srv-vme-ccs-02
Oct 30 02:22:49 srv-vme-ccs-02 crmd [1973]:注意: crm_update_peer_state:plugin_handle_membership:节点 srv-vme-ccs-01 [2544637100] - 现在是成员(was(null)
到目前为止是会员
10月30日10:07:34 srv-vme-ccs-02 corosync [1613]:[TOTEM] Retransmit List:117 Oct 30 10:07:35 srv-vme-ccs-02 corosync [1613] :[TOTEM] Reransmit List:118 Oct 30 10:07:35 srv-vme-ccs-02 corosync [1613]:
[TOTEM]失败收到10月30日10:07:49 srv-vme-ccs-02 arpwatch: bogon 192.168.0.120 d4:be:d9:af:c6:23 Oct 30 10:07:59 srv-vme-ccs-02 corosync [1613]:[pcmk] notice:pcmk_peer_update:Transitional 环232上的会员活动:memb = 1,new = 0,lost = 1 Oct 30 10:07:59 srv-vme-ccs-02 corosync [1613]:[pcmk] info:pcmk_peer_update: memb:srv-vme-ccs-02 2561414316 10月30日10:07:59 srv-vme-ccs-02 corosync [1613]:[pcmk] info:pcmk_peer_update:lost: srv-vme-ccs-01 2544637100 10月30日10:07:59 srv-vme-ccs-02 corosync [1613]:[pcmk]通知:pcmk_peer_update:稳定的会员资格 环232上的事件:memb = 1,new = 0,lost = 0 Oct 30 10:07:59 srv-vme-ccs-02 corosync [1613]:[pcmk] info:pcmk_peer_update: 会员:srv-vme-ccs-02 2561414316 10月30日10:07:59 srv-vme-ccs-02 corosync [1613]:[pcmk] info:ais_mark_unseen_peer_dead:节点srv-vme-ccs-01未出现在 上一次过渡 10月30日10:07:59 srv-vme-ccs-02 corosync [1613]:
[pcmk] info:update_member:节点2544637100 / srv-vme-ccs-01现在是: 10月30日10:07:59丢失srv-vme-ccs-02 corosync [1613]:[pcmk]信息: send_member_notification:将成员资格更新232发送给2个孩子 10月30日10:07:59 srv-vme-ccs-02 corosync [1613]:[TOTEM] A处理器 加入或离开会员,并成立了新的会员。 10月30日 10:07:59 srv-vme-ccs-02 corosync [1613]:[CPG]选择下载列表: 发送者r(0)ip(172.20.172.152);成员(旧:2左:1)10月30日10:07:59 srv-vme-ccs-02 crmd [1973]:注意:plugin_handle_membership: 会员资格232:法定人数在10月30日10:07:59失去了srv-vme-ccs-02 corosync [1613]:[MAIN]已完成服务同步,准备就绪 提供服务。 10月30日10:07:59 srv-vme-ccs-02 cib [1968]:注意: plugin_handle_membership:会员232:法定人数丢失 10月30日10:07:59 srv-vme-ccs-02 crmd [1973]:notice:crm_update_peer_state:plugin_handle_membership:Node srv-vme-ccs-01 [2544637100] - 州现已失去(成员)10月30日 10:07:59 srv-vme-ccs-02 cib [1968]:注意:crm_update_peer_state: plugin_handle_membership:Node srv-vme-ccs-01 [2544637100] - state is 现在输了(是会员) 10月30日10:07:59 srv-vme-ccs-02 crmd [1973]: 警告:reap_dead_nodes:我们的DC节点(srv-vme-ccs-01)离开了 群集现在srv-vme-ccs-01不再是会员
了
在另一个节点上,我发现类似的失败重新传输日志
节点1的日志
对于srv-vme-ccs-01
Oct 30 09:48:32 [2000] srv-vme-ccs-01 pengine:info: determine_online_status:节点srv-vme-ccs-01在线10月30日 09:48:32 [2000] srv-vme-ccs-01 pengine:info: determine_online_status:节点srv-vme-ccs-02在线
ct 30 09:48:59 [2001] srv-vme-ccs-01 crmd:info:update_dc: 取消设置DC。是srv-vme-ccs-01 10月30日09:48:59 corosync [TOTEM]转发清单:107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 10月30日09:48:59 corosync [TOTEM] Retransmit List:107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 118
10月30日10:08:22 corosync [TOTEM]处理器发生故障,形成新配置。 10月30日10:08:25 corosync [pcmk]通知: pcmk_peer_update:环232上的过渡成员资格事件:memb = 1, new = 0,lost = 1 Oct 30 10:08:25 corosync [pcmk] info: pcmk_peer_update:memb:srv-vme-ccs-01 2544637100 10月30日10:08:25 corosync [pcmk] info:pcmk_peer_update:lost:srv-vme-ccs-02 2561414316 10月30日10:08:25 corosync [pcmk]通知:pcmk_peer_update: 环232上的稳定成员事件:memb = 1,new = 0,lost = 0 10月30日 10:08:25 corosync [pcmk] info:pcmk_peer_update:MEMB: srv-vme-ccs-01 2544637100 10月30日10:08:25 corosync [pcmk] info:ais_mark_unseen_peer_dead:节点srv-vme-ccs-02未在上一次转换中看到 10月30日 10:08:25 corosync [pcmk] info:update_member:节点 2561414316 / srv-vme-ccs-02现在:丢失10月30日10:08:25 corosync [pcmk ] info:send_member_notification:将成员资格更新232发送到2 孩子 10月30日10:08:25 corosync [TOTEM]处理器加入或离开会员资格并成立新会员。 10月30日10:08:25 [1996] srv-vme-ccs-01 cib:通知:plugin_handle_membership:
会员资格232:法定人数损失10月30日10:08:25 [1996] srv-vme-ccs-01
cib:notice:crm_update_peer_state:plugin_handle_membership: 节点srv-vme-ccs-02 [2561414316] - 状态现已丢失(已成员)10月 30 10:08:25 corosync [CPG]选择下载列表:发件人r(0) ip(172.20.172.151);成员(旧:2左:1)10月30日10:08:25 [2001] srv-vme-ccs-01 crmd:notice:plugin_handle_membership:
会员资格232:法定人数损失10月30日10:08:25 [2001] srv-vme-ccs-01
crmd:notice:crm_update_peer_state:plugin_handle_membership: 节点srv-vme-ccs-02 [2561414316] - 状态现已丢失(已成员)10月 30 10:08:25 [2001] srv-vme-ccs-01 crmd:info: peer_update_callback:srv-vme-ccs-02现已丢失(是会员) 10月30日10:08:25 corosync [MAIN]完成服务同步, 随时准备提供服务。 10月30日10:08:25 [2001] srv-vme-ccs-01
crmd:warning:match_down_event:关闭操作不匹配 srv-vme-ccs-02 10月30日10:08:25 [1990] srv-vme-ccs-01 pacemakerd:
info:crm_cs_flush:已发送0条CPG消息(剩余1条,最后一条= 9条): 再试一次(6)Oct 30 10:08:25 [2001] srv-vme-ccs-01 crmd:info: join_make_offer:跳过srv-vme-ccs-01:已知10月30日 10:08:25 [2001] srv-vme-ccs-01 crmd:info:update_dc:Set DC到srv-vme-ccs-01(3.0.7)10月30日10:08:25 [1996] srv-vme-ccs-01
cib:info:cib_process_request:已完成cib_modify crm_config部分的操作:OK(rc = 0,origin = local / crmd / 185, 版本= 0.116.3)
因此,同时在两个节点上重复发送消息(在服务器突然重启后发生),并且节点互相标记为丢失成员并形成单独的集群,将其标记为DC
答案 0 :(得分:4)
我得到了解决方案:
首先检查tcpdump pacemkaer正在使用多播,在与网络团队调查后,我们开始知道多播未启用。
所以当我们删除mcastaddere并重新启动corosync和起搏器时,但是corosyn拒绝启动并说错误:
corosync.conf中没有定义mcastaddresss。
Laster on debugging发现synaxt为
运输:udpu
不正确它的写作如下:
transport = udpu
因此,默认运行的corosync是多播模式。
因此,在纠正corosync.conf后解决了问题。