替代ping来确定健康的机器

时间:2017-05-10 21:10:40

标签: architecture distributed distributed-system health-monitoring

我们的超级服务包含在不同机器上运行的多项服务。为确保服务健康且可访问,其他计算机将定期向服务发送“ping”请求。确定ping的超时是很棘手的,我们不想等待太久(快速失败的方法),但我们也不希望太快失败(因为当负载很高时,ping可以在接收时排队服务器和超时可能会发生,导致故障转移导致级联)。我们还发现ping可以阻塞网络。 我想知道是否有替代ping(可能保持开放的TCP连接?)更好地识别机器变得不健康/无法访问的场景?

1 个答案:

答案 0 :(得分:1)

Gossip协议可以显着降低您的健康流量,并且可以快速收敛。

你能在八卦之上建立一个健康系统吗?

作为替代方案,您的服务主机可以将心跳发送到中央服务,该服务可以是系统运行状况的标准。 Zookeeper短暂条目可以适合账单或类似系统。