企业故障转移(例如google.com)实际上如何运作?

时间:2012-11-19 01:06:05

标签: linux cloud failover redundancy

我们有一些配置用于Web,FTP和电子邮件服务的fedora系统。我们想要反映这些服务,以便我们可以为用户提供接近100%的可靠性。我是一位经验丰富的Linux管理员,但对冗余系统没有多少经验。

最好的方法是什么?谷歌和亚马逊是如何做到的? Google.com解析为多个IP地址,但如果我的本地桌面缓存其中一个无法访问的IP,我将收到失败的连接消息。他们如何防止这种情况发生?

如果其中一台服务器发生故障,如何在没有最终用户知道的情况下自动将其重定向到另一个系统?

我知道有故障转移设备,但它们只是用于故障转移系统本身,而不是完整的网络。

假设我们遇到了最糟糕的情况,例如我的主系统无法访问。 Linux系统上用于提供此功能的基本组件是什么?

我正在寻找概念或方法,而不是像“查看openstack”这样的答案。构成解决方案的实际部分是什么?要实现这种能力需要做些什么?

1 个答案:

答案 0 :(得分:2)

Google或亚马逊发布的IP地址实际上不是他们的服务器,而是负载均衡器。负载均衡器动态地将传入的客户端连接转发到实际的服务器,并且可能有数百和数千个它们落后于单个IP地址。

您可能会问,如果负载均衡器本身出现故障? 好吧,他们通常工作集群 - 至少2,并且所有人共享相同的虚拟IP地址。如果一个发生故障,虚拟IP似乎仍然有效,因为此负载均衡器集群的另一个成员仍在提供该请求。

如果群集负载均衡器停止运行,它们会自动更改其DNS,以使此虚拟IP不再向DNS客户端通告。为了加快速度,这些IP上的典型TTL设置得相当低,几分钟或更短(对于google.com,它是5分钟)。

当然,现实比这更复杂,但它应该给你粗略的想法。