我正在设计一个系统,我将让程序以标称/冗余模式运行,一对一机器,另一台机器运行。如果标称程序失败(故障转移事件),冗余应该接管并假设操作作为新的标称过程。这应该对用户透明。
我的问题是:当发生故障转移时,这是否仅仅是因为硬件故障?或软件错误是否足以触发故障转移?
更一般地说,是否有行业标准来决定应该导致故障转移的原因,还是由系统架构师/设计师决定?
答案 0 :(得分:1)
从集群的角度来看,这些错误没有任何区别。问题是你不能依赖失败节点的任何“我失败”事件。
群集(在您的情况下为“Redundant”角色)只是发现节点没有发送心跳(没有响应ping)。然后“Redundant”使自己“主”并开始处理传入的请求。这就是全部,我想。