应用错误收集

我们有一些配置用于Web，FTP和电子邮件服务的fedora系统。我们想要反映这些服务，以便我们可以为用户提供接近100％的可靠性。我是一位经验丰富的Linux管理员，但对冗余系统没有多少经验。

最好的方法是什么？谷歌和亚马逊是如何做到的？ Google.com解析为多个IP地址，但如果我的本地桌面缓存其中一个无法访问的IP，我将收到失败的连接消息。他们如何防止这种情况发生？

如果其中一台服务器发生故障，如何在没有最终用户知道的情况下自动将其重定向到另一个系统？

我知道有故障转移设备，但它们只是用于故障转移系统本身，而不是完整的网络。

假设我们遇到了最糟糕的情况，例如我的主系统无法访问。 Linux系统上用于提供此功能的基本组件是什么？

我正在寻找概念或方法，而不是像“查看openstack”这样的答案。构成解决方案的实际部分是什么？要实现这种能力需要做些什么？

Google或亚马逊发布的IP地址实际上不是他们的服务器，而是负载均衡器。负载均衡器动态地将传入的客户端连接转发到实际的服务器，并且可能有数百和数千个它们落后于单个IP地址。

您可能会问，如果负载均衡器本身出现故障？好吧，他们通常工作集群 - 至少2，并且所有人共享相同的虚拟IP地址。如果一个发生故障，虚拟IP似乎仍然有效，因为此负载均衡器集群的另一个成员仍在提供该请求。

如果群集负载均衡器停止运行，它们会自动更改其DNS，以使此虚拟IP不再向DNS客户端通告。为了加快速度，这些IP上的典型TTL设置得相当低，几分钟或更短（对于google.com，它是5分钟）。

当然，现实比这更复杂，但它应该给你粗略的想法。