为了保障数据中心客户的业务持续性,需以严格的风险管理与数据分析洞察为核心,构建全面的风险管理体系。
本文提出了五项具体行动,旨在通过管理气候与自然灾害导致的数据中心停机时间,实现上述目标,具体包括:
01
数据中心需采用针对性差异化的韧性策略。不同于电信网络通常呈分布式布局且天生具备冗余设计,数据中心属于集中式高密度环境,这使其更易受局部中断影响,例如自然灾害、停电、冷却系统故障及地缘政治风险等。
要最小化停机时间,首先需对数据中心面临的潜在风险进行细致入微且全面的审视。理想状态下,应进行广角风险与容忍度评估,以全面评估数据中心对所有潜在自然与气候风险的风险敞口程度、单点与多点故障的可能性,以及与关键公用设施的距离。同时,还需考虑可能造成多地域损害的大规模灾难情景。
假如你的数据中心位于飓风或地震高发区,为更好地管理潜在停机风险,需识别并量化这些事件的发生概率、严重程度及其对运营的影响。同理,若数据中心集群依赖单一电源或水源,需充分评估供电或供水中断的可能性,以及此类中断对运营与灾难恢复能力的影响。
全面的数据中心风险与韧性评估,不仅要分析自然灾害和公用设施中断的风险及影响,还需涵盖其他威胁,例如邻近高风险区域、地缘政治风险等。
获取上述信息后,可对单个或集群数据中心的脆弱性进行排序,进而估算潜在停机时长。评估过程中,应确保充分考虑数据中心建筑特性、现有冗余与缓解措施,以及公用设施依赖性。
对于拥有多个数据中心的组织而言,评估脆弱性得分与停机时间估算,有助于优先安排风险管理措施。通过聚焦最易受停机时间影响的数据中心,可更有效地分配适应与风险缓解资源。同时,通过综合考量多个灾害与多个数据中心集群的风险得分,可更好地理解累积影响,并据此更有效地管理相关风险。
若现有数据中心计划升级为人工智能 AI 专用服务器,需扩大评估范围,重点关注由于热量增加、电力负载需求提升及设备重量增加可能导致的关键风险。
02
一旦完成全面的风险与韧性评估后,可针对性强化数据中心的物理基础设施,以抵御最相关的自然灾害与气候风险。根据站点位置、面临的威胁及影响概率,需采取以下措施:采用抗震建筑材料、通过减震支架与抗震机架保护 IT 设备、安装防洪屏障及水检测装置,或按抗强风标准设计数据中心。尽早开展风险评估,可在设计阶段及施工前就将气候韧性纳入考量。
在建筑物与基础之间采用基础隔离系统或阻尼器,可有效吸收地震能量;而使用抗震设备,则能守护服务器安全。安装灭火系统,并在数据中心周边布置防火景观,形成防御空间,亦有助于保护数据中心免受火灾侵袭。
根据地理位置差异,还可考虑安装防洪屏障,防止水流侵入损坏服务器、电力系统及冷却基础设施;密封电缆、管道等所有开口,避免设备受湿度影响。此外,还需按抗强风标准设计设施结构。
您可借助先进的监测系统,补充结构防护措施,实现威胁的实时检测与应对。这些系统能提供潜在问题的早期预警,使您能够采取额外措施,最小化停机时间。例如,当强烈风暴逼近时,实时监测与警报系统可为您争取时间,关闭非关键系统,并确保备份系统准备就绪。
03
数据中心可通过多种方式实现冗余设计,确保网络的一部分发生故障时,其他部分能够迅速接管,避免严重停机。例如,结合现场发电、电网电力与可再生能源等多种电源,以维持数据中心的不间断运行,降低共享风险。
您也可以通过建立备用数据中心,可实现基础设施与数据备份的冗余设计。为确保冗余与可靠性,可选择在主要互联网交换点或对等点附近100公里半径内建立多个数据中心,形成“集群”。这种布局可通过在多个数据中心之间分配工作负载,提供冗余保障。若某一数据中心发生故障,其他数据中心可立即接管,确保业务连续性。然而,集群布局也可能增加单一灾难性事件同时影响多个数据中心的风险。
冗余冷却系统有助于维持数据中心的最佳运行温度,这对设备性能与使用寿命至关重要。先进的分析技术不仅能辅助选址,还能帮助掌握当前及未来高温、干旱强度变化等环境灾害情况,并将这些灾害与运营阈值相关联,从而在冷却容量配置上做出科学高效的决策,进一步减少潜在停机时间。
04
实施健全的业务连续性与灾难恢复计划,是减少停机时长、确保数据中心快速从自然灾害或气候相关事件中恢复的关键。
选择合适的设计与损失重现期(Return period,RP),是制定业务连续性与灾难恢复计划、减少停机时长的重要基础。
选择合适的设计与损失重现期(RP),是构建业务连续性与灾难恢复计划的重要基石,有助于最小化停机时间。损失重现期是一种量化气候事件或损失在任何给定年份发生的可能性。例如,100年的损失重现期意味着某事件在给定年份发生的概率为1%。这有助于数据中心运营商量化自然灾害与气候风险的频率与严重程度,特别是对于为金融服务、医疗保健或AI工作负载提供服务的运营商而言,正逐步将损失重现期标准从 100 年一遇或 200 年一遇提升至 500 年一遇及以上。
这一转变背后,既包括数据中心在高风险区域的集群化布局、停机对全球运营的系统性影响,也受到监管压力加大及客户期望提升的共同驱动。
这意味着数据中心设计必须纳入气候变化风险考量,从依赖历史数据转向参考未来预测;同时,数据中心需采取韧性强化措施,例如配置冗余电力与冷却系统、实施高效水资源管理、提高建筑标高或强化抗风设计,以缓解热浪、洪水、强风及干旱等气候相关风险。除国际及各国特定的建筑设计规范外,欧盟分类法的气候风险脆弱性评估(CRVA)、数据中心能效行为准则,以及英国建筑研究院环境评估方法(BREEAM)等标准与认证,也为风险评估与韧性提升提供了专业框架。
数据中心与电信资产恢复计划均属于业务持续性计划(BCP)的范畴,二者核心目标均为减少停机时长,并在事件发生后快速恢复运营。不同之处在于,电信资产恢复计划的地理分布更广泛,重点是保障网络与通信链路安全;而数据中心恢复计划则聚焦集中式设施内的基础设施、关键 IT 系统及数据存储,通常采用异地备份的方式。
您的风险管理规划应全面覆盖事件发生前、发生期间与发生后的所有环节,并涵盖运营的各个方面,从物理基础设施到所管理的数据与应用程序。特别是,业务连续性计划应明确在灾难期间保持数据中心运营所需的具体步骤,例如在不同且不受气候影响的位置建立备用数据中心,以便在主要数据中心受影响时迅速接管。同时,风险规划还应明确与客户及员工保持沟通的程序。
灾难恢复计划应包括建立所有设备与系统的详细清单,以及制定更换或修复受损组件的计划。此外,还应包含恢复数据与应用程序的程序,以确保客户能够尽快访问其信息。
至关重要的是,您应制定详尽的计划,明确每个数据中心在灾难发生时的应对策略,以及必要时如何相互支援。
05
强化跨地域通信能力,可更有效地保护数据中心运营免受自然灾害与气候事件的影响,特别是那些影响集群内多个数据中心的事件。
这需要在所有数据中心间建立清晰的沟通渠道,以及实时信息共享系统。例如,可部署所有数据中心均可访问的集中式通信平台,或成立专门的应急响应团队,统筹协调多站点间的通信。
通过定期演练与模拟,可测试数据中心间的通信与协调计划,确保其有效性;同时,让所有团队做好应对各类突发情况的充分准备。为有效防范自然灾害与气候风险,我们与风险管理人员、运营与可持续性团队,以及工程团队紧密合作,确保损失建模涵盖集群风险暴露、气候相关灾害与停机时间脆弱性等因素。如需了解更多信息,请与我们的气候与自然灾害风险专家取得联系。