考虑到在灾难发生之前您永远不需要使用灾难恢复计划,我想知道IT部门可以测试灾难恢复计划的方式是什么?您如何模拟关键系统的故障?有没有办法确保您的测试尽可能真实?谢谢你的建议。
答案 0 :(得分:3)
要添加上述评论,是的是“灾难”。你究竟是怎么做的取决于你的BCP。例如,如果您使用故障转移数据中心,则可以关闭一个。
您无需硬杀系统即可。你可以简单地拉网络;实际上取决于你正在测试哪些可能更好。
但是,您要做的是安排定期的,定期的“中断”。我之前的团队在一家全球金融服务公司工作。我们的系统是24x7x365关键任务。然而,我们实际上需要执行整个数据中心中断 - 并且它们将持续数天。你经常这样做取决于结果。无论你如何模仿或模仿它,如果你不在生产中这样做,它基本上是学术性的。
你当然希望将它变成“所有人在甲板上”。这样一来,当出现问题时,如果你的系统很复杂,那么你肯定会做好准备。这是良好业务连续性的另一个方面:没有任何事情按计划进行。通过定期导致灾难情景,您还可以训练您的员工在出现问题时如何处理;您还可以将这些课程添加到计划中。 BCP和DR不是静态的。我建议至少每年进行一次全系统测试,最好每年3-4次。您可以而且应该在“退潮”时安排它们 - 这时您的系统传统上处于低使用期。对许多人来说这意味着假期例如,一个为期三天的周末,是一个合理的时间。
并非所有部件都需要立即进行测试。有些东西可以测试,不会造成中断并让系统处理它。例如,您可以通过定期还原数据来测试备份和还原过程。
至于说服权力,这不是一个坏主意,请考虑这一点。如果你的计划中有一个漏洞(并且它们都有漏洞),当你让所有人准备好时你可以选择了解它,并且可以快速恢复正常状态或者在发生真正的故障时了解。通过生产测试逐步完成可以单独完成的部分,并以此为基础,向PTB显示实际通过模拟生产故障测试“整个系统”a)具有一些实体部分,b)是需要确保它真的有效。
答案 1 :(得分:2)
发生灾难!
如果您对灾难计划有信心,您应该可以走进数据中心(或门卫柜)并拔掉电源插头。
Tandem曾经非常好地展示了它的集群故障转移内容 - 他们在运行应用程序时通过其中一台服务器发射了一支霰弹枪。
答案 2 :(得分:1)
大多数情况下,灾难发生在服务器出现故障时。
取决于您的应用程序的重要程度......只需关闭测试环境中的计算机,并查看其他应用程序和服务器以及通知服务的反应。
如果他们没有以可接受的方式做出反应......你要做出改变。
答案 3 :(得分:0)
测试计划最好尽可能接近实际。一旦你开始模拟这个或那个测试变得无用的时候。如果您的管理层允许关闭计算机电源,请拔下LAN电缆,部署病毒。玩得开心吧!
答案 4 :(得分:0)
由于我是虚拟化技术的新手,我对此并不了解;然而,几个月前,我的组织没有为任何灾难恢复做好准备,但现在我们已经准备好了,因为我们有来自Advanced Systems Group的disaster recovery solutions。 ASG技术专家帮助我们确保在紧急情况下,我们在需要时在正确的位置提供正确的数据。他们测试了灾难恢复计划并取得了成功。我建议您咨询他们,因为他们经验丰富,并具备灾难恢复方面的专业知识。