什么是灾难恢复 (DR)？

什么是灾难恢复？

灾难恢复 (DR) 是第一线的保障策略，可以保护数据中心免受自然或人为灾难的影响。在发生灾难的情况下，灾难恢复计划 (DRP) 可以确保企业在灾难期间或之后迅速恢复运营或维持任务关键型职能。灾难恢复过程包括规划和测试，恢复业务运转通常需要涉及一个单独的物理站点。

为了更好地理解灾难恢复，我们必须首先从业务连续性的角度来定义什么是灾难。灾难，简而言之，就是任何使一个组织的运作处于危险之中的事情。灾难可以来自网络攻击、数据泄露、设备故障、自然灾害，甚至是老鼠咬断电缆。更不用说，以下任何一项都可能造成 IT 灾难：数据丢失、人为错误、恶意软件和病毒、网络和互联网故障、硬件和/或软件故障、天气灾难、自然洪水灾害或管道爆裂造成的洪水、办公室物品故意毁坏或意外损坏。

当灾难来临，任何灾难恢复计划的目标都是为了确保运营尽可能的正常进行。虽然企业会意识到发生了危机，但理想情况下，其客户和最终用户不应受到任何影响。

许多企业还会使用灾难恢复即服务 (DRaaS) 策略，即通过第三方提供商在一个单独的数据中心复制和托管服务器。一些云计算提供商提供原生的 DRaaS 解决方案，可以简化安装和新用户入门过程。一旦入门后，公司就能立即享受到 DR 保护的诸多好处。而且，由于这项服务是基于云的，因此它是有弹性的，能够适应客户不断增长或缩小的需求。

不实施灾难恢复计划的风险

无论一个组织的规模如何，IT 是任何企业不可分割的一部分；事实上，对于越来越多的公司来说，IT 是企业的生命线。保护 IT 资产和任务关键型操作是首要任务。一个健全的灾难恢复解决方案不仅仅是保护硬件；如今，软件攻击更加普遍，这可能会影响网站功能、履行订单的能力以及执行其他业务关键型任务。

如果没有部署到位的灾难恢复策略，公司可能会面临运营、财务和声誉方面的风险。从业务连续性的角度来看，如果一场灾难阻碍了企业的有效运营能力，员工将无法完成他们的工作，客户可能会受到运营放缓的影响，他们甚至可能选择购买竞争对手的产品和/或服务。

也许灾难产生的最明显、最直接的风险是大量的收入损失。虽然几乎所有的灾难都会造成某种财务损失，但如果反应很慢，恢复的时间太长，企业可能会损失更多的金钱。不幸的是，恢复反应缓慢的代价越来越高。事实上，IT 停机的平均成本可高达每分钟 17,000 美元。因为并不是所有的公司都有足够的能力来支付这笔费用，所以很多公司在受到一次重大灾难的打击后就无法恢复。

最后，那些在灾难发生后不能快速有效恢复的公司，企业的声誉可能会受损——他们不再是一家安全、值得信赖的公司。所有优秀的公司都知道，客户是维持业务的关键，而声誉的损害会阻碍未来的投资，使有价值的员工离开，对一些企业来说，他们也会失去东山再起的机会。这也是企业在遭受灾难后经常失败的主要原因之一。

实施灾难恢复的好处

除了避免失败的灾难恢复带来的风险之外，确保您的企业有一个完善的、易于执行的灾难恢复策略，还可以带来几项主要的好处。

RTO 和 RPO
构建灾难恢复解决方案，也就意味着可预测地恢复系统、服务和应用。行业标准的服务水平协议 (SLA) 指标是恢复时间目标（RTO - 衡量企业可以容忍业务运营损失的时间）和恢复点目标（RPO - 衡量可以接受的数据损失程度）。
限制损失
由于灾难恢复解决方案可以快速恢复业务运营，因此可以最大限度地减少收入损失和与长时间停机造成的损失有关的成本。
保护运营
并非所有业务应用都是一样的；因此，一个架构得当的灾难恢复计划将在每个应用的基础上执行 SLA。这可以确保业务关键型应用得到高度保护。
保护声誉
行之有效的灾难恢复策略是一项可以体现竞争力的差异化因素。如果一个企业的客户/顾客看到企业在灾难中具有很强的恢复能力，他们对公司的整体信心可能会增加。
性能改善
能够在一个物理上独立的数据中心（可能是多个远程数据中心或服务提供商）托管目标 DR 故障切换操作，意味着可以避免因局部灾难而导致的性能下降。

企业该如何构建灾难恢复策略？

没有哪种通用的灾难恢复计划可以适合所有企业的独特需求。虽然以下标准可以为构建灾难恢复策略提供指导，但要根据企业的具体情况加以调整。

清点基础架构
在制定灾难恢复计划之初，清点硬件和软件是很重要的。主要依靠软件运营的企业会发现这项任务比较容易，因为他们不需要顾及数据中心的物理组件。这个过程包括罗列每个提供商对所有硬件和应用的技术支持联系信息。
进行风险评估
确定企业可以接受的停机时间和数据损失程度。虽然零停机和零数据丢失是最理想的，但不是所有的企业都能负担得起达成这一目标的灾难恢复解决方案。高度依赖 IT 的企业，如电子商务网站，根本无法承受太长的停机时间（甚至停机一秒钟都不行）。这样做也可以为每一类应用确定可接受的 RPO 和 RTO。
制定沟通计划
一个有效的沟通计划可以让员工在灾难发生时了解情况，确保他们了解如何在灾难发生时访问所需的系统，保持业务继续运营。该计划还包括在灾难期间建立一个妥当的运营基地。
制定 SLA
确保签约的服务水平协议 (SLA) 将灾难囊括在内。许多企业将技术外包给服务提供商或将其系统存储在一个单独的数据中心或设施中。
定期进行灾难恢复测试
企业必须定期测试其 DR 解决方案的准备情况。即使是最强大的 DR 计划也必须进行测试，以满足内部或外部审计要求。