服务器场关闭

时间:2008-11-12 22:17:24

标签: infrastructure

大型服务器场如何正常关闭全部或部分服务器场?我正在考虑计划和计划外的案例,如:

  • “我们需要关闭Rack 42”
  • “我们需要对整个区块的供电工作”
  • “停电!UPS的果汁用尽了!Aahh!”
  • “AC下降,气温为125F并且攀爬”

我感兴趣的问题是人们如何处理排序,并将整个事情踢掉。此外,我发现这很容易混淆提升和降低服务以及软件升级系统。

(此时我更多地要求好奇心。)

4 个答案:

答案 0 :(得分:1)

计算机可以使用比在运行时更多的电力回馈,因为它们必须让所有的盘片和风扇旋转,通常具有启动所有应用程序的大量CPU活动,等等。大多数商店都会有一套错综复杂的创业公司序列,所以他们没有最大化电路,必须重新开始。如果您有一堆期望与数据库通信的应用程序,或者需要与应用程序服务器通信的一堆Web服务器,这也很重要。您通常从下往上开始,并将启动时间错开30秒到一分钟,具体取决于电路上有多少个盒子。

答案 1 :(得分:0)

一种方法是在临时热交换上镜像实时计算机,并假设通过网络访问,通过重新配置路由器以将流量转移到镜像来切换。此过程可以自动进行计划外中断。

对于计划内维护,有些人只是通知他们的用户系统在某个窗口期间将无法使用。

冗余电源和气体发电机可以处理大多数与电源相关的问题,同样可以自动进行故障转移。

答案 2 :(得分:0)

啊,现在我更清楚地理解你的问题了。

来自dataprobe的iBootBar等产品可让您监控和管理远程设备的电源。智能系统可以监控每个设备的电流消耗,以验证其在标称限制内的功能。如果没有,它可以使设备脱机并在线备用,更换它,观察初始浪涌并等待电源稳定,然后再切换下一个设备。

答案 3 :(得分:0)

请记住,“大型服务器场”的设计目的是不会关闭,除非他们有义务这样做。这意味着这是一个可能但远程遥远的事件,当它发生时,你真的很匆忙。每个其他用例,例如关闭机架或在电力线上工作,都将尽可能提前计划。

当事情出现问题时,你真的很匆忙。

例如,发电机燃料耗尽(通常他们将保留至少一整天的储备并且有合同以及时获得供应​​,所以我们在这里谈论大灾难)或类似事件,你'我知道它会在几个小时的时间内关闭。或者HVAC系统完全失效,那么在温度升高过多之前,您只需几分钟即可关闭所有设备。

我不是这里的专家,在街垒的另一边(数据中心的客户),但我认为他们将有系统来命令关闭他们控制的所有系统,他们只会削减他们无法控制和正确关闭的客户系统的电源。

该农场最终将再次启动一个区域,一次一个机架,当所有系统重新联机并准备满负荷运行时(UPS,发电机,HVAC等)。 当他们完全控制系统(即不是客户而是私人农场)时,他们通常会逐渐将AC带到所有电路,服务器将自动启动(如果配置为这样,许多服务器甚至可以设置比如“在最长X分钟的随机时间后加电”或者他们将被命令通过像IPMI或类似系统这样的无人值守管理来启动。