HA - 心脏起搏器 - 有没有办法在X秒/分钟/小时后自动清除失败的动作?

时间:2017-01-30 08:54:45

标签: high-availability pacemaker corosync

我在Centos7中使用Pacemaker + Corosync 当我的一个资源发生故障/停止时,我会收到失败的操作消息:

Master/Slave Set: myoptClone01 [myopt_data01]
     Masters: [ pcmk01-cr ]
     Slaves: [ pcmk02-cr ]
 myopt_fs01     (ocf::heartbeat:Filesystem):    Started pcmk01-cr
 myopt_VIP01    (ocf::heartbeat:IPaddr2):       Started pcmk01-cr
 ServicesResource        (ocf::heartbeat:RADviewServices):       Started pcmk01-cr

Failed Actions:
* ServicesResource_monitor_120000 on pcmk02-cr 'unknown error' (1): call=141, status=complete, exitreason='none',
    last-rc-change='Mon Jan 30 10:19:36 2017', queued=0ms, exec=142ms

有没有办法在X秒/分钟/小时后自动清除失败的操作?

1 个答案:

答案 0 :(得分:1)

查看'failure-timeout'资源选项。如果在failure-timeout值中没有发生特定资源的进一步故障,这将自动清除失败的操作。

我相信在cluster-recheck-interval期间计算失败超时。这意味着即使您将故障超时配置为1分钟,使用Pacemaker的默认15分钟集群重新检查间隔清除失败的操作仍可能需要15分59秒。

更多信息:

http://clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-failure-migration.html

http://clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-resource-options.html